OpenAI也指出,“我们观察到该模型产生的幻觉问题有所减少,但挑战依旧存在,我们尚未完全消除这一问题。”因此,OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

当地时间9月12日,美国生成式AI明星企业OpenAI发布了拥有深度思考能力的预览模型——“OpenAI o1”。该模型采用了全新的训练方法和优化算法,通过强化学习进行自我提升,在复杂推理任务上表现出色,并且其推理能力达到了新的水平,能够更好地解决编程问题和其他多步骤问题。

图源:OpenAI

OpenAI称,这是未来一系列的“用于解决更难问题的推理模型”的一部分,并强调,模型将“花更多的时间”对涉及科学、编程和数学方面的复杂问题和任务去“思考”。这也使得该预览模型的思考过程“更像人”,也意味着人工智能向类人智能迈进的重要一步。

如何“像人类一样思考”

作为早期模型,OpenAI o1还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。这是由OpenAI对这款推理模型所决定的,其希望专注于实现其深度思考能力,而非其他广泛的浅层应用。

因此,OpenAI训练这款推理模型花更多时间思考问题,然后再做出反应,就像人类一样。通过训练,该模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。 

OpenAI o1模型经过训练,可以比人类更快地回答更复杂的问题,特别是在复杂问题解答、代码编写及多步骤问题解决上展现出显著进步,具备更强的复杂的推理能力,代表了人工智能能力的新水平。鉴于此,OpenAI将该模型命名为 OpenAI o1,寓意着能力的重新启程与探索。

不过,OpenAI o1运行成本要高于GPT-4o且速度稍逊,具体为每百万输入Token收费15美元,每百万输出Token收费60美元。相较之下,GPT-4的对应费用分别为5美元和15美元。

此外,OpenAI推出了“OpenAIo1-mini”版本,价格更便宜,但同样具备强大的推理能力。OpenAI o1-mini在STEM领域表现出色,尤其是数学和编码——在AIME和Codeforces等评估基准上的表现几乎与OpenAI o1相当。OpenAI预计,对于需要推理而无需广泛世界知识的应用程序,o1-mini将是一种更快、更具成本效益的模型,其速度更快、价格便宜80%,并且在编码任务方面与o1预览版本具有竞争力。

OpenAI研究主管杰里·特沃雷克(Jerry Tworek)透露,尽管细节仍然保密,但OpenAI o1的训练方式与其前身存在根本性差异。他强调,OpenAI o1采用了创新的优化算法及专属定制的新训练数据集进行训练。与以往GPT模型单纯模仿训练数据模式不同,OpenAI o1运用了强化学习技术,通过奖惩机制引导模型自主解决问题,并借助“思维链”方法逐步处理查询,模拟人类解题方式。

下一次更新媲美博士生

OpenAI的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。OpenAI发现,随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1的性能会持续提高,其特别在数学和编码方面表现出色。

为了突出推理能力相对于GPT-4o的提升,OpenAI在一系列不同的人工考试和ML基准上测试了该模型。结果表明,在绝大多数推理能力较强的任务中,o1的表现明显优于GPT-4o。

o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)表现。图源:OpenAI

o1 在广泛的基准测试中都比 GPT-4o 有所改进,包括 54/57  MMLU 子类别。图中显示了七个子类别以供说明。图源:OpenAI

作为对比,对于国际数学奥赛(IMO)测试的资格考试,GPT-4o只能解决13%的问题,但最新的推理模型能够解决83%的问题。新模型的编程能力在相关的编程测试中,达到超出89%其他模型的水平。据介绍,OpenAI o1在竞争性编程问题(Codeforces)中排名第89位,在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列。

除了强大的推理能力,AI模型的安全性也尤为重要。为了推进对人工智能安全的承诺,OpenAI最近与美国和英国的人工智能安全研究所正式达成协议。OpenAI已经开始实施这些协议,包括授予这些研究所早期使用该模型研究版本的权限。

在开发OpenAI o1新模型的过程中,OpenAI提出了一种新的安全训练方法,利用它们的推理能力,使它们遵守安全和协调准则。OpenAI衡量安全性的一种方法是测试当用户试图绕过安全规则(称为“越狱”)时,AI模型如何继续遵循安全规则。在OpenAI最严格的越狱测试中,GPT-4o得分为22(0-100分制),而OpenAI o1预览模型得分为84。

不过,OpenAI也指出,“我们观察到该模型产生的幻觉问题有所减少,但挑战依旧存在,我们尚未完全消除这一问题。”因此,OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

目前,OpenAI o1以“预览版”形式推出,供ChatGPT Plus及团队用户即时体验,而企业及教育用户则将于下周初获得访问权限。未来,OpenAI还计划向ChatGPT的免费用户开放OpenAI o1-mini的访问,具体日期待定。

适用于医疗、工程等领域研究

从OpenAI o1这款模型可以看出,OpenAI在新推出的一系列推理模型上,将精力放在了模型处理和解决专业领域问题的能力上,而非更广泛的能力,比如AI生产图文、视频等。这也意味着OpenAI在推理模型上将更加强调专业、细分的应用。

OpenAI表示,“如果您正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。” 

推理能力是迈向人类智能水平的关键一步,将为医疗、工程等领域带来革命性进展。然而,当前OpenAI o1的推理速度尚显迟缓,且使用成本高昂,尚不具备智能体的全面特性。正因为如此,OpenAI推出了o1-mini版本,在保证推理速度的前提下,降低版本成本,以平衡成本效益。这一策略将为不同需求的用户提供更多选择,从而拓宽市场应用范围。

近日消息,OpenAI正与投资者商谈,计划以1500亿美元的估值进行新一轮融资,筹集资金约65亿美元。这表明OpenAI正在积极扩展其资本基础,以支持其快速发展的业务需求和未来的运营开支,特别是为大语言模型赋予更强的推理能力。

OpenAI首席研究官鲍勃·麦克格鲁表示:“我们花了好几个月的时间研究推理,因为我们认为这实际上是关键的突破。本质上,这是一种新型模型范式,它能够解决真正困难的问题,从而向类似人类的智能水平发展。”

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力,以及在马斯克在当选总统特朗普政府中的“特殊地位”,多家分析机构认为,马斯克的财富未来还将进一步增长。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
据悉,此次交易是通过马斯克亲自与英伟达CEO黄仁勋进行沟通促成的。这批GB200 AI芯片将被用于强化其旗舰级超级计算集群——Colossus(巨人)。Colossus作为xAI的技术基石,将借此机会实现计算能力的飞跃。
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
人工智能(AI)功能已经在各种移动设备中变得至关重要。尤其是2024年,AI PC陆续推向市场,甚至可以称为“边缘设备AI元年”。 这次我们就来盘点一下2024年下半年发布的主要AI PC和处理器。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情
亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天!还没报名的小伙伴,抓紧报名噢,12月21日不见不散!大会时间与地点时间:2024年12月21日 9:30-1
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题