解方程、做口译、读代码、懂情感……GPT-4o中的“o”代表“omni”,意为全能。Murati称,GPT-4o为每个用户都提供了GPT-4级别的智能,同时还改进了GPT-4在文本、视觉以及音频方面的能力。借助GPT-4o,OpenAI通过跨文本、视觉和音频端到端训练了新模型,使得所有输入和输出都由同一神经网络处理,进一步降低了延迟。据介绍,GPT-4o的语音延迟大幅改善,可以在232毫秒内回应音频输入,平均为320毫秒,接近人类对话的反应时间。在基本的功能介绍后,Murati邀请研究主管 Mark Chen、后训练团队负责人Barret Zoph同台进行功能演示。比起前面的口头介绍,GPT-4o的直播表现可谓充满惊喜。1)看图指导解方程演示中,Zoph在白板上写了一个方程式3x+1=4,ChatGPT给他提示,引导他完成每一步解答,识别他的书写结果,帮助他解出了X的值。2)解读屏幕信息Zoph将一段Python代码输入ChatGPT,并让ChatGPT用一句话总结这段代码在做什么。GPT回答无误,并详细说明了数据是如何被处理的。随后,Zoph又运行了这段代码,GPT能够准确地描述出所生成图表的具体含义,包括图表主题、XY轴信息、峰值水平。3)实时交替翻译GPT还在演示中扮演了翻译员的角色。应社交媒体X的用户请求,Murati现场对ChatGPT说起了意大利语,GPT则将她的话翻译成英语,转告Zoph和Chen;听完Murati说的意大利语,GPT再将其翻译为英文并告诉Chen:“Mark,她(Murati)想知道鲸鱼会不会说话,它们会告诉我们什么?” 4)通过视频识别面部情绪演示中,Zoph将手机举到自己面前正对着脸,要求ChatGPT检测他现在的情绪。最初,GPT参考了他之前分享的一张照片,将他识别为“木质表面”。经过第二次尝试,GPT表示:“你看起来非常的开心,可能还有一点激动,看样子你应该心情很不错。”Zoph赞扬了GPT的回答并表示自己正在进行一场演示,以展示“你有多不可思议”,此时GPT情绪颇为激动地表示:“快别说了!你让我害羞了。”
有分析指出,苹果和OpenAI的合作能够解决彼此在发展边缘AI方面的痛点,真正做到各取所需——OpenAI最需要什么?端侧应用权限、系统级权限,只有苹果能提供。苹果最需要什么?最好的AI技术,最适配的大语言模型,GPT-4o无疑是最佳人选。Fan也表示,苹果+OpenAI合作推出的AI产品可能会成为从一开始就拥有10亿用户的AI产品。目前,有分析师预测,苹果将在6月10日的WWDC大会上官宣和OpenAI的合作伙伴关系,并推出基于苹果LLM的AI聊天机器人。令人激动的是,已经有移动端App开始接入GPT-4o了。用于辅助盲人和弱势群体日常生活的手机App Be My Eyes尝试了接入GPT-4o,发现日常决策的效率被大大提高。
宣传视频显示,一名盲人打开Be My Eyes后,能够通过和GPT-4o对话,让GPT详细告诉他眼前的景象,从而快速做出决策。