正如OpenAI CEO萨姆·奥尔特曼(Sam Altman)日前在X上的辟谣,这次发布的既不是传闻中的GPT-5,也不是AI搜索,而是“我们一直在努力开发,一些我们认为人们会喜欢的新东西。”
北京时间5月14日凌晨,OpenAI发布了一款名为GPT-4o的新旗舰生成式人工智能模型,并计划在未来几周内逐步在其各种产品中推出。
语音强化,让交互更自然
GPT-4o(“o”代表“omni”,意为“全能的”)是迈向更自然的人机交互的一步。OpenAI的首席技术官穆里-穆拉提(Muri Murati)介绍说,“这是我们第一次在易用性方面真正迈出一大步。”GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进,所有用户均可免费使用,而付费用户的容量限制是免费用户的五倍。
值得注意的是,此次发布会上,奥尔特曼并未现身。在OpenAI官网披露的GPT-4o贡献者中,依然没有看到OpenAI首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)的身影。
OpenAI首席技术官Muri Murati
Murati在OpenAI旧金山总部办公室的主题演讲中提到,“GPT-4o跨越了语音、文本和视觉的多个领域。”、“OpenAI将推出桌面版ChatGPT及全新用户界面。”
Murati说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。这一点非常重要,因为我们正在展望人类与机器之间互动的未来。"
GPT-4是OpenAI之前的领先模型,它集成了图像和文本功能,能够分析图像和文本,完成从提取图像中的文本到描述图像内容等任务。而GPT-4o在此基础上增加了语音功能。
情感捕捉、视觉增强、增速降价
这一改进带来了一些新功能,包括但不限于以下几点:
GPT-4o显著提升了ChatGPT的使用体验。ChatGPT是OpenAI的人工智能聊天机器人,虽然长期支持语音模式,支持将文本转为语音,但GPT-4o在此基础上进行了优化,使用户能够更像与助手互动一样自然地使用ChatGPT。
例如,用户现在可以在ChatGPT回答问题时中断它,而OpenAI表示,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音。
GPT-4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。
从即日起,GPT-4o将在ChatGPT的免费版本中提供,而OpenAI的高级版本ChatGPT Plus和Team用户则可享有“五倍消息限制”的优势,企业选项也“即将推出”(当用户达到使用阈值时,系统将自动转为使用 GPT-3.5)。
OpenAI表示,计划在六月左右为Plus用户推出改良后的GPT-4o语音体验。
OpenAI还表示,GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。
用户只需发出简单的“嘿,ChatGPT”语音提示,即可获得代理的口语回应。然后,用户可以用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。
在音频输入方面,人工智能的平均响应时间为320毫秒,与人类的对话响应时间类似。
演示阶段玩出了花
在现场演示环节,GPT-4o更是展示了各类花式操作——它能根据演示者的实时要求变换语音语调,演绎话剧;能实时读图;甚至还跟演示者们开玩笑,还可以唱歌。
例如,当被问及“你最近怎么样?”时,GPT-4o 除了表示“我很好”,还会反问“你怎么样?”当“要求讲一个“机器人和爱情的睡前故事”时,GPT-4o开始说话以后被打断,要求以更有情绪性、更戏剧化的方式讲述故事,随后GPT-4o在讲故事时的语音语调更跌宕起伏,更为声情并茂,甚至可以以唱歌的形式结束对话。
不仅如此,GPT-4o 还拥有视觉+语音交互功能,能够看图解方程式。Zoph打开手机视频通话,对GPT-4o说:“我要在一张纸上写下一个线性方程。不要告诉我答案,只是给出解答它的过程。”随后,Zoph写下了3x+1=4的方程式,询问如何解这道题。GPT-4o通过循循善诱的提示,在Zoph提出求助与问题时不断给出下一个步骤的建议,从而得出了x=1的正确结果。
有家长看后表示,从此以后,无论是哄睡还是辅导孩子写作业,用上GPT-4o都会变得更轻松。
此外,GPT-4o能够实时读懂屏幕信息,帮助解答代码问题和分析图表;能够跨语言实时翻译,在说话者用意大利语和英语对话时,没有延迟地翻译成了对应的语言,还能模仿说话者的语气;能够识别分析人类的情绪,当说话者展示一张自拍,要求其判断自己的情绪时,GPT-4o 分析道,“你看起来非常开心,可能还有一些激动,应该心情很不错。”
尚未完全开放,仅限合作伙伴
目前,GPT-4o的应用程序接口中尚未为所有客户提供语音功能。鉴于滥用风险,OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。
其他方面,OpenAI将在网络上发布全新的ChatGPT UI,新的主屏幕和消息布局“更具对话性”,同时还将发布桌面版的ChatGPT for Mac,用户可以通过键盘快捷键向ChatGPT提问,也可以通过打字或说话截图并进行讨论(从今天开始,Plus用户将首先获得访问权限,Windows版本的应用程序将于今年晚些时候推出)。
此外,ChatGPT的免费用户现在还可以访问GPT Store(OpenAI 基于其人工智能模型构建的第三方聊天机器人库)。
GPT-4o的文本和图像功能已经开始向付费的ChatGPT Plus和Team用户推出,企业用户也即将推出。免费用户也将开始使用,但有使用限制。
语音版GPT-4o将“在未来几周内”开始提供。开发人员将能够使用GPT-4o的文本和视觉模式,并在未来几周内向“一小部分值得信赖的合作伙伴”提供音频和视频功能。
奥特曼没来发布会,但夸夸一点没少
OpenAI研究员威廉·费达斯(William Fedus)表示:“GPT-4o是我们最先进的新前沿模型。我们一直在LMSys arena上测试一个版本:im-also-a-good-gpt2-chatbot。”
“这不仅是世界上最好的模型,而且可以在ChatGPT中免费使用,这对于前沿模型来说是前所未有的。” Fedus补充道,“我们发现在更难的提示集上——特别是编码——存在更大的差距:GPT-4o和我们之前的最佳模型相比,实现了+100 ELO。”
Altman也在X上表示:“GPT-4o是我们最好的模型。”
“对我来说,与电脑交谈从来没有真正自然过,而现在却很自然……我真的看到了一个令人兴奋的未来,我们可以用电脑做比以往更多的事情。” Altman说道,“AI达到人类级别的响应时间和表现力是一个很大的改变,给人的感觉就像电影中的人工智能,而它的真实性仍然让我感到有些惊讶。”他表示,“最初的ChatGPT展示了语言界面的雏形,而这款新模型给人的感觉却截然不同,它快速、智能、有趣、自然而且乐于助人。”
Altman还发文“her”,或许也表达了他对GPT-4o的评价以及对未来的畅想(在电影《Her》中,人工智能助手Samantha主动给男主人公打了电话,告知他一些事情)。
Altman表示,OpenAI的一项重要使命就是免费(或以优惠价格)向人们提供功能强大的人工智能工具,“我感到非常自豪的是,我们在ChatGPT中免费提供了世界上最好的模型,并且没有广告或类似的东西”。
他表示:“我们是一家企业,会找到很多可以收费的东西,这将帮助我们为数十亿人提供免费、出色的人工智能服务(希望如此)。”
会不会用在iPhone上?
值得注意的是,本次发布会全程用iPhone和MacBook Pro进行演示,同时还发布了Mac桌面版的ChatGPT,似乎是暗示OpenAI将与苹果合作,在苹果设备中接入大模型的能力。
此前,《电子工程专辑》报道过,苹果已经与OpenAI达成协议,将在全新操作系统iOS 18中引入ChatGPT技术,以升级Siri的对话体验。那么GPT-4o和Siri将如何结合?ChatGPT和苹果又将如何定义新一代AI手机?这都是充满想象力的。
因下一代iPhone操作系统计划发布基于LLM(大型语言模型)的新功能,苹果正积极寻找第三方合作伙伴,谈判对象包括谷歌、OpenAI。
就目前看来,苹果和OpenAI的适配度似乎更高。
有分析指出,苹果和OpenAI的合作能够解决彼此在发展边缘AI方面的痛点,真正做到各取所需:
OpenAI最需要——端侧应用权限、系统级权限,只有苹果能提供。
苹果最需要——最好的AI技术,最适配的大语言模型,GPT-4o无疑是最佳人选。
分析人士认为,若能与OpenAI达成合作,苹果不仅可以缩短产品研发周期,还可以迅速提升自家产品的智能化水平。而鉴于苹果在自研芯片、封闭生态系统上具有独特优势,英伟达高级研究科学家Jim Fan在X平台评论:“(大模型)谁先赢得苹果,谁就赢得了胜利。”
Jim Fan认为,OpenAI与iOS的集成将出现3个层级:
1)放弃Siri。OpenAI为iOS提炼出更小型、纯设备上的GPT-4o,并可选择付费升级以使用云。
2) 将相机或屏幕传输到模型中的本机功能。对神经音频/视频编解码器的芯片级支持。
3) 集成iOS系统操作API和智能家居API。Siri快捷方式是时候复活了。
这可能会成为从一开始就拥有10亿用户的AI产品,OpenAI之于苹果类似于“用于智能手机的FSD”,Jim Fan说道。