OpenAI也指出,“我们观察到该模型产生的幻觉问题有所减少,但挑战依旧存在,我们尚未完全消除这一问题。”因此,OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

当地时间9月12日,美国生成式AI明星企业OpenAI发布了拥有深度思考能力的预览模型——“OpenAI o1”。该模型采用了全新的训练方法和优化算法,通过强化学习进行自我提升,在复杂推理任务上表现出色,并且其推理能力达到了新的水平,能够更好地解决编程问题和其他多步骤问题。

图源:OpenAI

OpenAI称,这是未来一系列的“用于解决更难问题的推理模型”的一部分,并强调,模型将“花更多的时间”对涉及科学、编程和数学方面的复杂问题和任务去“思考”。这也使得该预览模型的思考过程“更像人”,也意味着人工智能向类人智能迈进的重要一步。

如何“像人类一样思考”

作为早期模型,OpenAI o1还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。这是由OpenAI对这款推理模型所决定的,其希望专注于实现其深度思考能力,而非其他广泛的浅层应用。

因此,OpenAI训练这款推理模型花更多时间思考问题,然后再做出反应,就像人类一样。通过训练,该模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。 

OpenAI o1模型经过训练,可以比人类更快地回答更复杂的问题,特别是在复杂问题解答、代码编写及多步骤问题解决上展现出显著进步,具备更强的复杂的推理能力,代表了人工智能能力的新水平。鉴于此,OpenAI将该模型命名为 OpenAI o1,寓意着能力的重新启程与探索。

不过,OpenAI o1运行成本要高于GPT-4o且速度稍逊,具体为每百万输入Token收费15美元,每百万输出Token收费60美元。相较之下,GPT-4的对应费用分别为5美元和15美元。

此外,OpenAI推出了“OpenAIo1-mini”版本,价格更便宜,但同样具备强大的推理能力。OpenAI o1-mini在STEM领域表现出色,尤其是数学和编码——在AIME和Codeforces等评估基准上的表现几乎与OpenAI o1相当。OpenAI预计,对于需要推理而无需广泛世界知识的应用程序,o1-mini将是一种更快、更具成本效益的模型,其速度更快、价格便宜80%,并且在编码任务方面与o1预览版本具有竞争力。

OpenAI研究主管杰里·特沃雷克(Jerry Tworek)透露,尽管细节仍然保密,但OpenAI o1的训练方式与其前身存在根本性差异。他强调,OpenAI o1采用了创新的优化算法及专属定制的新训练数据集进行训练。与以往GPT模型单纯模仿训练数据模式不同,OpenAI o1运用了强化学习技术,通过奖惩机制引导模型自主解决问题,并借助“思维链”方法逐步处理查询,模拟人类解题方式。

下一次更新媲美博士生

OpenAI的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。OpenAI发现,随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1的性能会持续提高,其特别在数学和编码方面表现出色。

为了突出推理能力相对于GPT-4o的提升,OpenAI在一系列不同的人工考试和ML基准上测试了该模型。结果表明,在绝大多数推理能力较强的任务中,o1的表现明显优于GPT-4o。

o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)表现。图源:OpenAI

o1 在广泛的基准测试中都比 GPT-4o 有所改进,包括 54/57  MMLU 子类别。图中显示了七个子类别以供说明。图源:OpenAI

作为对比,对于国际数学奥赛(IMO)测试的资格考试,GPT-4o只能解决13%的问题,但最新的推理模型能够解决83%的问题。新模型的编程能力在相关的编程测试中,达到超出89%其他模型的水平。据介绍,OpenAI o1在竞争性编程问题(Codeforces)中排名第89位,在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列。

除了强大的推理能力,AI模型的安全性也尤为重要。为了推进对人工智能安全的承诺,OpenAI最近与美国和英国的人工智能安全研究所正式达成协议。OpenAI已经开始实施这些协议,包括授予这些研究所早期使用该模型研究版本的权限。

在开发OpenAI o1新模型的过程中,OpenAI提出了一种新的安全训练方法,利用它们的推理能力,使它们遵守安全和协调准则。OpenAI衡量安全性的一种方法是测试当用户试图绕过安全规则(称为“越狱”)时,AI模型如何继续遵循安全规则。在OpenAI最严格的越狱测试中,GPT-4o得分为22(0-100分制),而OpenAI o1预览模型得分为84。

不过,OpenAI也指出,“我们观察到该模型产生的幻觉问题有所减少,但挑战依旧存在,我们尚未完全消除这一问题。”因此,OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

目前,OpenAI o1以“预览版”形式推出,供ChatGPT Plus及团队用户即时体验,而企业及教育用户则将于下周初获得访问权限。未来,OpenAI还计划向ChatGPT的免费用户开放OpenAI o1-mini的访问,具体日期待定。

适用于医疗、工程等领域研究

从OpenAI o1这款模型可以看出,OpenAI在新推出的一系列推理模型上,将精力放在了模型处理和解决专业领域问题的能力上,而非更广泛的能力,比如AI生产图文、视频等。这也意味着OpenAI在推理模型上将更加强调专业、细分的应用。

OpenAI表示,“如果您正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。” 

推理能力是迈向人类智能水平的关键一步,将为医疗、工程等领域带来革命性进展。然而,当前OpenAI o1的推理速度尚显迟缓,且使用成本高昂,尚不具备智能体的全面特性。正因为如此,OpenAI推出了o1-mini版本,在保证推理速度的前提下,降低版本成本,以平衡成本效益。这一策略将为不同需求的用户提供更多选择,从而拓宽市场应用范围。

近日消息,OpenAI正与投资者商谈,计划以1500亿美元的估值进行新一轮融资,筹集资金约65亿美元。这表明OpenAI正在积极扩展其资本基础,以支持其快速发展的业务需求和未来的运营开支,特别是为大语言模型赋予更强的推理能力。

OpenAI首席研究官鲍勃·麦克格鲁表示:“我们花了好几个月的时间研究推理,因为我们认为这实际上是关键的突破。本质上,这是一种新型模型范式,它能够解决真正困难的问题,从而向类似人类的智能水平发展。”

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
凭借先进的3nm制程工艺和SoIC-MH封装技术,M5芯片在性能、能效和AI能力上均实现了显著提升。首批搭载M5芯片的设备陆续上市......
随着AI模型规模越来越大,所需的训练硬件也需同步升级。然而,目前缺乏一种开放的互连标准来支持AI加速器间的高效通信。
AI正稳步改变半导体行业,这一趋势在领先EDA公司和硅片代工厂表现得尤为突出。三大EDA工具制造商(Cadence、Synopsys和西门子EDA)已宣布与台积电合作,致力于为先进芯片制造节点开发AI驱动的设计流程。本文将简要回顾这些合作的现状。
最近发布的GeForce RTX 5080显卡晶体管数量、die size相比前代RTX 4080都没什么大变化,这真的能有性能提升吗?
台积电计划在 3 月前投资超过 2000 亿新台币(约合 61.2 亿美元),扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露,台积电之所以做出这一决定,是因为人工智能(AI)驱动的先进封装需求比预期更为强劲......
尽管市场上有传言称英伟达大幅削减了对台积电CoWoS-S封装的需求,甚至有报告指出砍单幅度高达80%,但台积电和英伟达均对此进行了否认......
全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
简化物联网连接:应用就绪型软件构建模块
2月10日,市场调查机构 IDC 发文称,2024 年全年中国平板电脑市场出货量为 2985 万台,同比增长 4.3%,市场迎来回暖。报道称, 2024 年第 4 季度市场出货量为 786 万台,受库
据业内人士2月11日透露,三星显示器近期限时推出名为“平衡假期”的特别假期。具体内容是,每周平均工作超过52小时的员工可获得三天带薪休假,每周工作超过60小时的员工可获得六天带薪休假。上个月,三星显示
据IT业界9日报道,苹果公司最近进入了“可折叠iPhone”零部件供应商选择的最后阶段,据观察,三星显示器已决定独家供应初期面板量。据悉,三星将供应约1500万至2000万片,并将于明年5月开始量产,
2月10日盘后,光峰科技发布公告,于近日收到某知名车企出具的开发定点通知书,将为其旗下新时代科技品牌的SUV车型供应智能座舱显示产品,预计2025年内量产供货。光峰科技认为,随着消费者对智能座舱需求的
2022年下半年以来,需求下降,芯片价格跳水,芯片行情趋向寒冷,拼价格、拼服务、拼账期成为常态,持续的低迷之下,芯片人都开始靠省钱过日子。同时,我们发现,行情冷淡的时候,订货、配单、PPV(Purch
2月11日,特斯拉上海储能超级工厂投产仪式今日在上海临港举行,这一重要项目的投产标志着特斯拉在华业务的进一步拓展。特斯拉上海储能超级工厂于 2024 年 5 月正式在上海临港新片区开工建设。从开工到产
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇1.  信越化学(Shin-Etsu Chemica
一年一度的新能源汽车“掀桌子”活动又开始了,前两年新能源汽车“价格战”的阴影还没有消散,今年关于智能驾驶只怕又要卷生卷死了。搅动风云的,依旧是那个男人,依旧是那个品牌——比亚迪,又来掀桌子了。昨晚,比
  电子无尘车间在设计时需要重视多个问题,以确保生产环境的洁净度、生产效率和安全性。以下是需要重视的设计问题,具体随合洁科技电子洁净工程公司一起来了解下吧! &emsp
新春伊始,苏州工业园区企业以新促兴,开启新一年奋进之旅。2月10日上午,哈曼汽车电子系统(苏州)有限公司车载显示智能制造工厂开业。哈曼集团在该事业领域全球布局的第一条生产线将在这里投入使用,未来满产后