OpenAI发布可深度思考的AI模型，下一次更新将媲美理化生博士-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

OpenAI也指出，“我们观察到该模型产生的幻觉问题有所减少，但挑战依旧存在，我们尚未完全消除这一问题。”因此，OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

当地时间9月12日，美国生成式AI明星企业OpenAI发布了拥有深度思考能力的预览模型——“OpenAI o1”。该模型采用了全新的训练方法和优化算法，通过强化学习进行自我提升，在复杂推理任务上表现出色，并且其推理能力达到了新的水平，能够更好地解决编程问题和其他多步骤问题。

图源：OpenAI

OpenAI称，这是未来一系列的“用于解决更难问题的推理模型”的一部分，并强调，模型将“花更多的时间”对涉及科学、编程和数学方面的复杂问题和任务去“思考”。这也使得该预览模型的思考过程“更像人”，也意味着人工智能向类人智能迈进的重要一步。

如何“像人类一样思考”

作为早期模型，OpenAI o1还不具备 ChatGPT 的许多实用功能，例如浏览网页获取信息以及上传文件和图片。这是由OpenAI对这款推理模型所决定的，其希望专注于实现其深度思考能力，而非其他广泛的浅层应用。

因此，OpenAI训练这款推理模型花更多时间思考问题，然后再做出反应，就像人类一样。通过训练，该模型学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

OpenAI o1模型经过训练，可以比人类更快地回答更复杂的问题，特别是在复杂问题解答、代码编写及多步骤问题解决上展现出显著进步，具备更强的复杂的推理能力，代表了人工智能能力的新水平。鉴于此，OpenAI将该模型命名为 OpenAI o1，寓意着能力的重新启程与探索。

不过，OpenAI o1运行成本要高于GPT-4o且速度稍逊，具体为每百万输入Token收费15美元，每百万输出Token收费60美元。相较之下，GPT-4的对应费用分别为5美元和15美元。

此外，OpenAI推出了“OpenAIo1-mini”版本，价格更便宜，但同样具备强大的推理能力。OpenAI o1-mini在STEM领域表现出色，尤其是数学和编码——在AIME和Codeforces等评估基准上的表现几乎与OpenAI o1相当。OpenAI预计，对于需要推理而无需广泛世界知识的应用程序，o1-mini将是一种更快、更具成本效益的模型，其速度更快、价格便宜80%，并且在编码任务方面与o1预览版本具有竞争力。

OpenAI研究主管杰里·特沃雷克（Jerry Tworek）透露，尽管细节仍然保密，但OpenAI o1的训练方式与其前身存在根本性差异。他强调，OpenAI o1采用了创新的优化算法及专属定制的新训练数据集进行训练。与以往GPT模型单纯模仿训练数据模式不同，OpenAI o1运用了强化学习技术，通过奖惩机制引导模型自主解决问题，并借助“思维链”方法逐步处理查询，模拟人类解题方式。

下一次更新媲美博士生

OpenAI的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。OpenAI发现，随着强化学习的增加（训练时间计算）和思考时间的增加（测试时间计算），o1的性能会持续提高，其特别在数学和编码方面表现出色。

为了突出推理能力相对于GPT-4o的提升，OpenAI在一系列不同的人工考试和ML基准上测试了该模型。结果表明，在绝大多数推理能力较强的任务中，o1的表现明显优于GPT-4o。

o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率，阴影区域表示64个样本的多数投票（共识）表现。图源：OpenAI

o1 在广泛的基准测试中都比 GPT-4o 有所改进，包括 54/57 个 MMLU 子类别。图中显示了七个子类别以供说明。图源：OpenAI

作为对比，对于国际数学奥赛（IMO）测试的资格考试，GPT-4o只能解决13%的问题，但最新的推理模型能够解决83%的问题。新模型的编程能力在相关的编程测试中，达到超出89%其他模型的水平。据介绍，OpenAI o1在竞争性编程问题（Codeforces）中排名第89位，在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列。

除了强大的推理能力，AI模型的安全性也尤为重要。为了推进对人工智能安全的承诺，OpenAI最近与美国和英国的人工智能安全研究所正式达成协议。OpenAI已经开始实施这些协议，包括授予这些研究所早期使用该模型研究版本的权限。

在开发OpenAI o1新模型的过程中，OpenAI提出了一种新的安全训练方法，利用它们的推理能力，使它们遵守安全和协调准则。OpenAI衡量安全性的一种方法是测试当用户试图绕过安全规则（称为“越狱”）时，AI模型如何继续遵循安全规则。在OpenAI最严格的越狱测试中，GPT-4o得分为22（0-100分制），而OpenAI o1预览模型得分为84。

不过，OpenAI也指出，“我们观察到该模型产生的幻觉问题有所减少，但挑战依旧存在，我们尚未完全消除这一问题。”因此，OpenAI声称下一次更新将使模型在物理、化学及生物学等挑战性基准任务上的表现媲美博士生。

目前，OpenAI o1以“预览版”形式推出，供ChatGPT Plus及团队用户即时体验，而企业及教育用户则将于下周初获得访问权限。未来，OpenAI还计划向ChatGPT的免费用户开放OpenAI o1-mini的访问，具体日期待定。

适用于医疗、工程等领域研究

从OpenAI o1这款模型可以看出，OpenAI在新推出的一系列推理模型上，将精力放在了模型处理和解决专业领域问题的能力上，而非更广泛的能力，比如AI生产图文、视频等。这也意味着OpenAI在推理模型上将更加强调专业、细分的应用。

OpenAI表示，“如果您正在解决科学、编码、数学和类似领域的复杂问题，这些增强的推理能力可能特别有用。例如，医疗研究人员可以使用 o1 来注释细胞测序数据，物理学家可以使用 o1 来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。”

推理能力是迈向人类智能水平的关键一步，将为医疗、工程等领域带来革命性进展。然而，当前OpenAI o1的推理速度尚显迟缓，且使用成本高昂，尚不具备智能体的全面特性。正因为如此，OpenAI推出了o1-mini版本，在保证推理速度的前提下，降低版本成本，以平衡成本效益。这一策略将为不同需求的用户提供更多选择，从而拓宽市场应用范围。

近日消息，OpenAI正与投资者商谈，计划以1500亿美元的估值进行新一轮融资，筹集资金约65亿美元。这表明OpenAI正在积极扩展其资本基础，以支持其快速发展的业务需求和未来的运营开支，特别是为大语言模型赋予更强的推理能力。

OpenAI首席研究官鲍勃·麦克格鲁表示：“我们花了好几个月的时间研究推理，因为我们认为这实际上是关键的突破。本质上，这是一种新型模型范式，它能够解决真正困难的问题，从而向类似人类的智能水平发展。”

责编：Jimmy.zhang

人工智能业界新闻

OpenAI发布可深度思考的AI模型，下一次更新将媲美理化生博士

如何“像人类一样思考”

下一次更新媲美博士生

适用于医疗、工程等领域研究

杂志声明