不是传闻中的GPT-5,也不是AI搜索,OpenAI发布了一款名为GPT-4o的新旗舰生成式人工智能模型GPT-4o。这款大模型在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进,几乎实现实时响应用户的语音提问,并且目前可免费使用……

正如OpenAI CEO萨姆·奥尔特曼(Sam Altman)日前在X上的辟谣,这次发布的既不是传闻中的GPT-5,也不是AI搜索,而是“我们一直在努力开发,一些我们认为人们会喜欢的新东西。”

北京时间5月14日凌晨,OpenAI发布了一款名为GPT-4o的新旗舰生成式人工智能模型,并计划在未来几周内逐步在其各种产品中推出。

语音强化,让交互更自然

GPT-4o(“o”代表“omni”,意为“全能的”)是迈向更自然的人机交互的一步。OpenAI的首席技术官穆里-穆拉提(Muri Murati)介绍说,“这是我们第一次在易用性方面真正迈出一大步。”GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进,所有用户均可免费使用,而付费用户的容量限制是免费用户的五倍。

值得注意的是,此次发布会上,奥尔特曼并未现身。在OpenAI官网披露的GPT-4o贡献者中,依然没有看到OpenAI首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)的身影。

OpenAI首席技术官Muri Murati

Murati在OpenAI旧金山总部办公室的主题演讲中提到,“GPT-4o跨越了语音、文本和视觉的多个领域。”、“OpenAI将推出桌面版ChatGPT及全新用户界面。”

Murati说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。这一点非常重要,因为我们正在展望人类与机器之间互动的未来。"

GPT-4是OpenAI之前的领先模型,它集成了图像和文本功能,能够分析图像和文本,完成从提取图像中的文本到描述图像内容等任务。而GPT-4o在此基础上增加了语音功能。

情感捕捉、视觉增强、增速降价

这一改进带来了一些新功能,包括但不限于以下几点:

GPT-4o显著提升了ChatGPT的使用体验。ChatGPT是OpenAI的人工智能聊天机器人,虽然长期支持语音模式,支持将文本转为语音,但GPT-4o在此基础上进行了优化,使用户能够更像与助手互动一样自然地使用ChatGPT。

例如,用户现在可以在ChatGPT回答问题时中断它,而OpenAI表示,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音。

GPT-4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

从即日起,GPT-4o将在ChatGPT的免费版本中提供,而OpenAI的高级版本ChatGPT Plus和Team用户则可享有“五倍消息限制”的优势,企业选项也“即将推出”(当用户达到使用阈值时,系统将自动转为使用 GPT-3.5)。

OpenAI表示,计划在六月左右为Plus用户推出改良后的GPT-4o语音体验。

OpenAI还表示,GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。

用户只需发出简单的“嘿,ChatGPT”语音提示,即可获得代理的口语回应。然后,用户可以用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。

在音频输入方面,人工智能的平均响应时间为320毫秒,与人类的对话响应时间类似。

演示阶段玩出了花

在现场演示环节,GPT-4o更是展示了各类花式操作——它能根据演示者的实时要求变换语音语调,演绎话剧;能实时读图;甚至还跟演示者们开玩笑,还可以唱歌。

例如,当被问及“你最近怎么样?”时,GPT-4o 除了表示“我很好”,还会反问“你怎么样?”当“要求讲一个“机器人和爱情的睡前故事”时,GPT-4o开始说话以后被打断,要求以更有情绪性、更戏剧化的方式讲述故事,随后GPT-4o在讲故事时的语音语调更跌宕起伏,更为声情并茂,甚至可以以唱歌的形式结束对话。

不仅如此,GPT-4o 还拥有视觉+语音交互功能,能够看图解方程式。Zoph打开手机视频通话,对GPT-4o说:“我要在一张纸上写下一个线性方程。不要告诉我答案,只是给出解答它的过程。”随后,Zoph写下了3x+1=4的方程式,询问如何解这道题。GPT-4o通过循循善诱的提示,在Zoph提出求助与问题时不断给出下一个步骤的建议,从而得出了x=1的正确结果。

有家长看后表示,从此以后,无论是哄睡还是辅导孩子写作业,用上GPT-4o都会变得更轻松。

此外,GPT-4o能够实时读懂屏幕信息,帮助解答代码问题和分析图表;能够跨语言实时翻译,在说话者用意大利语和英语对话时,没有延迟地翻译成了对应的语言,还能模仿说话者的语气;能够识别分析人类的情绪,当说话者展示一张自拍,要求其判断自己的情绪时,GPT-4o 分析道,“你看起来非常开心,可能还有一些激动,应该心情很不错。”

尚未完全开放,仅限合作伙伴

目前,GPT-4o的应用程序接口中尚未为所有客户提供语音功能。鉴于滥用风险,OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

其他方面,OpenAI将在网络上发布全新的ChatGPT UI,新的主屏幕和消息布局“更具对话性”,同时还将发布桌面版的ChatGPT for Mac,用户可以通过键盘快捷键向ChatGPT提问,也可以通过打字或说话截图并进行讨论(从今天开始,Plus用户将首先获得访问权限,Windows版本的应用程序将于今年晚些时候推出)。

此外,ChatGPT的免费用户现在还可以访问GPT Store(OpenAI 基于其人工智能模型构建的第三方聊天机器人库)。

GPT-4o的文本和图像功能已经开始向付费的ChatGPT Plus和Team用户推出,企业用户也即将推出。免费用户也将开始使用,但有使用限制。

语音版GPT-4o将“在未来几周内”开始提供。开发人员将能够使用GPT-4o的文本和视觉模式,并在未来几周内向“一小部分值得信赖的合作伙伴”提供音频和视频功能。

奥特曼没来发布会,但夸夸一点没少

OpenAI研究员威廉·费达斯(William Fedus)表示:“GPT-4o是我们最先进的新前沿模型。我们一直在LMSys arena上测试一个版本:im-also-a-good-gpt2-chatbot。”

“这不仅是世界上最好的模型,而且可以在ChatGPT中免费使用,这对于前沿模型来说是前所未有的。” Fedus补充道,“我们发现在更难的提示集上——特别是编码——存在更大的差距:GPT-4o和我们之前的最佳模型相比,实现了+100 ELO。”

Altman也在X上表示:“GPT-4o是我们最好的模型。”

“对我来说,与电脑交谈从来没有真正自然过,而现在却很自然……我真的看到了一个令人兴奋的未来,我们可以用电脑做比以往更多的事情。” Altman说道,“AI达到人类级别的响应时间和表现力是一个很大的改变,给人的感觉就像电影中的人工智能,而它的真实性仍然让我感到有些惊讶。”他表示,“最初的ChatGPT展示了语言界面的雏形,而这款新模型给人的感觉却截然不同,它快速、智能、有趣、自然而且乐于助人。”

Altman还发文“her”,或许也表达了他对GPT-4o的评价以及对未来的畅想(在电影《Her》中,人工智能助手Samantha主动给男主人公打了电话,告知他一些事情)。

Altman表示,OpenAI的一项重要使命就是免费(或以优惠价格)向人们提供功能强大的人工智能工具,“我感到非常自豪的是,我们在ChatGPT中免费提供了世界上最好的模型,并且没有广告或类似的东西”。

他表示:“我们是一家企业,会找到很多可以收费的东西,这将帮助我们为数十亿人提供免费、出色的人工智能服务(希望如此)。”

会不会用在iPhone上?

值得注意的是,本次发布会全程用iPhone和MacBook Pro进行演示,同时还发布了Mac桌面版的ChatGPT,似乎是暗示OpenAI将与苹果合作,在苹果设备中接入大模型的能力。

此前,《电子工程专辑》报道过,苹果已经与OpenAI达成协议,将在全新操作系统iOS 18中引入ChatGPT技术,以升级Siri的对话体验。那么GPT-4o和Siri将如何结合?ChatGPT和苹果又将如何定义新一代AI手机?这都是充满想象力的。

因下一代iPhone操作系统计划发布基于LLM(大型语言模型)的新功能,苹果正积极寻找第三方合作伙伴,谈判对象包括谷歌、OpenAI。

就目前看来,苹果和OpenAI的适配度似乎更高。

有分析指出,苹果和OpenAI的合作能够解决彼此在发展边缘AI方面的痛点,真正做到各取所需:

OpenAI最需要——端侧应用权限、系统级权限,只有苹果能提供。

苹果最需要——最好的AI技术,最适配的大语言模型,GPT-4o无疑是最佳人选。

分析人士认为,若能与OpenAI达成合作,苹果不仅可以缩短产品研发周期,还可以迅速提升自家产品的智能化水平。而鉴于苹果在自研芯片、封闭生态系统上具有独特优势,英伟达高级研究科学家Jim Fan在X平台评论:“(大模型)谁先赢得苹果,谁就赢得了胜利。”

Jim Fan认为,OpenAI与iOS的集成将出现3个层级:

1)放弃Siri。OpenAI为iOS提炼出更小型、纯设备上的GPT-4o,并可选择付费升级以使用云。

2) 将相机或屏幕传输到模型中的本机功能。对神经音频/视频编解码器的芯片级支持。

3) 集成iOS系统操作API和智能家居API。Siri快捷方式是时候复活了。

这可能会成为从一开始就拥有10亿用户的AI产品,OpenAI之于苹果类似于“用于智能手机的FSD”,Jim Fan说道。

责编:Luffy
阅读全文,请先
您可能感兴趣
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
由于较早预判了transformer网络架构的发展,爱芯通元AI处理器原生支持transformer,这也保证了其能效比领先于更高端的AI芯片,更加契合边缘大模型的落地应用。基于爱芯智眸AI-ISP和爱芯通元NPU两大核心技术,爱芯元智在智慧城市、智能驾驶和边缘智能等领域不断落地。
作为IIC Shenzhen 2024主论坛之一,2024全球CEO峰会以“边缘·芯未来”为主题,邀请全球领先的半导体技术厂商探讨和分享边缘AI技术在硬件和软件上的创新和布局,以及边缘AI的发展为半导体产业带来的巨大的市场机遇和技术挑战。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
由于成本和时间问题,路透社报道称,OpenAI公司暂时放弃了雄心勃勃的代工计划,转而计划专注于内部芯片设计工作。作为芯片的最大买家之一,OpenAI 在开发定制芯片时决定从不同的芯片制造商处采购,这可能会对科技行业产生更广泛的影响......
要想更好的迎接数字音频新时代,当今的数字音频,不仅要能够提供Hi-Fi的音质,而且还能够作为智能设备的人机界面,同时还能够用USB多通道等方式方便连接......
今年芯科科技首次在上海举办2024年实体“Works With开发者大会”,并于会上推出第三代无线开发平台(Series 3),引领物联网未来创新。
2024 年 11 月 5 日~6 日,2024 国际集成电路展览会暨研讨会 (IIC),在中国深圳福田会展中心圆满举行。在 2024 年度全球电子成就奖颁奖典礼上,必易微 KP1601X 系列产品,荣获“年度功率半导体/驱动器产品”奖。
近日,锐成芯微基于8nm工艺的工艺、电压、温度传感IP(PVT Sensor IP,下同)完成硅测试,验证结果展现出了其优异的性能,未来将为客户在先进工艺平台的IP需求提供更多的、具有差异化的技术选择。
 智能汽车网络与数据安全新媒体 (谈思汽车迅)在电动化与智能化的双重驱动下,线控底盘这一新能源汽车核心部件正迎来全新增长周期。11月6日,广汽集团旗下广汽零部件公司、长安汽车、中国长安与辰致科技签署战
卓越的光输出功率与电光转化效率(WPE):典型值为115mW,效率达5.3%; 极致杀菌效能:峰值发射波长265nm; 紧凑耐用设计:卓越的R70B50寿命,超过2
加拿大6日以国家安全风险为由,下令解散中资企业TikTok在该国的分公司,但补充说,政府并未阻止加拿大人使用这个短视频应用程序或其创造内容的能力。(图片来源:pixabay)加拿大创新部长(Innov
刚刚,晶科电子股份首挂上市,证券代码为2551。本次发行价格3.61港元/股,共发行3864万股股份,每手1000股,所得款项净额将约为8225万港元。据悉,晶科电子股份共获得了超5600倍的超额认购
EVH原创文章1.东风马赫新一代功率分流+多档串并联混动技术剖析2.2024年度小鹏电控新一代创新控制技术3.新能源混动之传动系统设计介绍4.博格华纳绕组端部短焊接&S—Winding、向心油
近日,AMEYA360与苏州杭晶电子科技有限公司达成授权代理合作。此次合作,双方将针对工业控制、通信系统、测量仪器、电力设备、数码产品等领域,共同致力于为市场带来一系列卓越性能、超低功耗及低噪声特性的
全球知名半导体制造商ROHM(总部位于日本京都市)面向车载电动压缩机、HV加热器、工业设备用逆变器等应用,开发出符合汽车电子产品可靠性标准AEC-Q101*1、1200V耐压、实现了业界超低损耗和超高
The 2024 Munich International Electronic  Fair (Electronica) will be held from November 12 to 15 at
台积电创办人张忠谋的自传下册将在11月底出版,根据台湾地区远见杂志报道,天下文化出版今(6)日首度曝光张忠谋自传下册目录,书中揭露他曾经征询黄仁勋对台积电CEO职位的兴趣。根据张忠谋自传下册目录,其中