OpenAI也指出,“我们观察到该模型产生的幻觉问题有所减少,但挑战依旧存在,我们尚未完全消除这一问题。”因此,OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

当地时间9月12日,美国生成式AI明星企业OpenAI发布了拥有深度思考能力的预览模型——“OpenAI o1”。该模型采用了全新的训练方法和优化算法,通过强化学习进行自我提升,在复杂推理任务上表现出色,并且其推理能力达到了新的水平,能够更好地解决编程问题和其他多步骤问题。

图源:OpenAI

OpenAI称,这是未来一系列的“用于解决更难问题的推理模型”的一部分,并强调,模型将“花更多的时间”对涉及科学、编程和数学方面的复杂问题和任务去“思考”。这也使得该预览模型的思考过程“更像人”,也意味着人工智能向类人智能迈进的重要一步。

如何“像人类一样思考”

作为早期模型,OpenAI o1还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。这是由OpenAI对这款推理模型所决定的,其希望专注于实现其深度思考能力,而非其他广泛的浅层应用。

因此,OpenAI训练这款推理模型花更多时间思考问题,然后再做出反应,就像人类一样。通过训练,该模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。 

OpenAI o1模型经过训练,可以比人类更快地回答更复杂的问题,特别是在复杂问题解答、代码编写及多步骤问题解决上展现出显著进步,具备更强的复杂的推理能力,代表了人工智能能力的新水平。鉴于此,OpenAI将该模型命名为 OpenAI o1,寓意着能力的重新启程与探索。

不过,OpenAI o1运行成本要高于GPT-4o且速度稍逊,具体为每百万输入Token收费15美元,每百万输出Token收费60美元。相较之下,GPT-4的对应费用分别为5美元和15美元。

此外,OpenAI推出了“OpenAIo1-mini”版本,价格更便宜,但同样具备强大的推理能力。OpenAI o1-mini在STEM领域表现出色,尤其是数学和编码——在AIME和Codeforces等评估基准上的表现几乎与OpenAI o1相当。OpenAI预计,对于需要推理而无需广泛世界知识的应用程序,o1-mini将是一种更快、更具成本效益的模型,其速度更快、价格便宜80%,并且在编码任务方面与o1预览版本具有竞争力。

OpenAI研究主管杰里·特沃雷克(Jerry Tworek)透露,尽管细节仍然保密,但OpenAI o1的训练方式与其前身存在根本性差异。他强调,OpenAI o1采用了创新的优化算法及专属定制的新训练数据集进行训练。与以往GPT模型单纯模仿训练数据模式不同,OpenAI o1运用了强化学习技术,通过奖惩机制引导模型自主解决问题,并借助“思维链”方法逐步处理查询,模拟人类解题方式。

下一次更新媲美博士生

OpenAI的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。OpenAI发现,随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1的性能会持续提高,其特别在数学和编码方面表现出色。

为了突出推理能力相对于GPT-4o的提升,OpenAI在一系列不同的人工考试和ML基准上测试了该模型。结果表明,在绝大多数推理能力较强的任务中,o1的表现明显优于GPT-4o。

o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)表现。图源:OpenAI

o1 在广泛的基准测试中都比 GPT-4o 有所改进,包括 54/57  MMLU 子类别。图中显示了七个子类别以供说明。图源:OpenAI

作为对比,对于国际数学奥赛(IMO)测试的资格考试,GPT-4o只能解决13%的问题,但最新的推理模型能够解决83%的问题。新模型的编程能力在相关的编程测试中,达到超出89%其他模型的水平。据介绍,OpenAI o1在竞争性编程问题(Codeforces)中排名第89位,在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列。

除了强大的推理能力,AI模型的安全性也尤为重要。为了推进对人工智能安全的承诺,OpenAI最近与美国和英国的人工智能安全研究所正式达成协议。OpenAI已经开始实施这些协议,包括授予这些研究所早期使用该模型研究版本的权限。

在开发OpenAI o1新模型的过程中,OpenAI提出了一种新的安全训练方法,利用它们的推理能力,使它们遵守安全和协调准则。OpenAI衡量安全性的一种方法是测试当用户试图绕过安全规则(称为“越狱”)时,AI模型如何继续遵循安全规则。在OpenAI最严格的越狱测试中,GPT-4o得分为22(0-100分制),而OpenAI o1预览模型得分为84。

不过,OpenAI也指出,“我们观察到该模型产生的幻觉问题有所减少,但挑战依旧存在,我们尚未完全消除这一问题。”因此,OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

目前,OpenAI o1以“预览版”形式推出,供ChatGPT Plus及团队用户即时体验,而企业及教育用户则将于下周初获得访问权限。未来,OpenAI还计划向ChatGPT的免费用户开放OpenAI o1-mini的访问,具体日期待定。

适用于医疗、工程等领域研究

从OpenAI o1这款模型可以看出,OpenAI在新推出的一系列推理模型上,将精力放在了模型处理和解决专业领域问题的能力上,而非更广泛的能力,比如AI生产图文、视频等。这也意味着OpenAI在推理模型上将更加强调专业、细分的应用。

OpenAI表示,“如果您正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。” 

推理能力是迈向人类智能水平的关键一步,将为医疗、工程等领域带来革命性进展。然而,当前OpenAI o1的推理速度尚显迟缓,且使用成本高昂,尚不具备智能体的全面特性。正因为如此,OpenAI推出了o1-mini版本,在保证推理速度的前提下,降低版本成本,以平衡成本效益。这一策略将为不同需求的用户提供更多选择,从而拓宽市场应用范围。

近日消息,OpenAI正与投资者商谈,计划以1500亿美元的估值进行新一轮融资,筹集资金约65亿美元。这表明OpenAI正在积极扩展其资本基础,以支持其快速发展的业务需求和未来的运营开支,特别是为大语言模型赋予更强的推理能力。

OpenAI首席研究官鲍勃·麦克格鲁表示:“我们花了好几个月的时间研究推理,因为我们认为这实际上是关键的突破。本质上,这是一种新型模型范式,它能够解决真正困难的问题,从而向类似人类的智能水平发展。”

责编:Jimmy.zhang
您可能感兴趣
最近收到一款Jetson Orin Nano Super开发套装,我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
微软还强调,拜登政府的《人工智能扩散出口管制框架》限制了美国向许多快速增长且具有战略意义的市场出口关键AI组件,破坏了特朗普政府的两项优先事项:加强美国的AI领导地位以及减少美国近万亿美元的贸易逆差。
该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范,推动全球养老机器人产业的健康发展,通过明确养老机器人的功能与性能分类,确保其在互联家居环境中的有效应用。
2月以来,一些人形机器人头部企业高薪案例值得关注。其中,宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位,月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元,年薪超百万(15薪制)。
在应对美国加码措施上,中国一方面应该依托自身庞大的垂直应用场景,特别是工业制造领域,在做大做强中国制造的同时,推动国产AI芯片的替代,另一方面仍需加大基础研究投入,重点突破AI芯片设计、半导体设备和先进工艺制程。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
小米宣布全球首发光学预研技术——小米模块光学系统,同时发布官方宣传视频。简单来说,该系统是一个磁吸式可拆卸镜头,采用定制M4/3传感器+全非球面镜组,带来完整一亿像素,等效35mm焦段,配备f/1.4
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
在 AI 时代,高校正逐渐成为 AI 创新的重要策源地。AI 的强大潜力不仅能够推动科学研究,提升研究效率和加速进程,还能在教育领域实现个性化学习,模拟复杂实验场景,拓宽学习方式。聆听全球专家的分享,
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----编者荐语特征提取是计算机
DeepSeek的崛起不仅是技术革新,更是一场从“机器语言”到“人类语言”的范式革命,推动了AGI时代到来。各个行业的应用场景不断拓展,为企业数字化发展带来了新机遇,同时也面临诸多挑战。不同企业在落地
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
‍‍近几年,随着Mini/Micro LED技术的高速发展,LED产业呈现几大发展趋势,如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成,以及RGB 封装与COB 降本需求迫
前不久,“行家说三代半”报道了长安汽车采用氮化镓OBC车载电源(点击查看)。近期,比亚迪、广汽埃安两家车企又相继公布了氮化镓应用进展:比亚迪&大疆:车载无人机采用氮化镓技术3月2日,比亚迪、大疆共同发
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅刚开年
 点击上方蓝字➞右上「· · ·」设为星标➞更新不错过★2025 年 3 月 12 日至 14 日  连续 3 晚 19:00 - 20:30德州仪器电力全开 为您带来 “高效 DC-DC 转换器的设