近日,OpenAI在其为期12个工作日的线上新品发布活动的最后一天,宣布推出下一代模型o3,包括一个正式版o3和一个精简版o3-mini。据OpenAI CEO Sam Altman表示,新模型o3是“一个非常、非常聪明的模型”,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。同时,o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。
今年9月,OpenAI发布的o1预览版在测试化学、物理和生物学专业知识的基准GPQA-diamond上,准确率达到78.3%,超过了人类博士专家的69.7%。然而,新推出的o3模型在同样的测试中,准确率高达87.7%,比o1高将近13%。
此外,o3模型在ARC-AGI评估中,最低成绩为75.7%,最高成绩为87.5%,超过了标志着达到人类水平的门槛85%。前谷歌高级工程师、AI研究员François Chollet表示,OpenAI这些推理模型在AGI测试中取得进步是“稳健的”。
与此同时,OpenAI还推出了精简版o3-mini,该模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。o3Mini模型在编码评估、数学能力测试中均表现出色,与o1模型相当。
然而,尽管o3的测评看上去表现惊艳,OpenAI可能不会很快面向大众上线这款新的超级推理模型。从12月20日开始,OpenAI允许安全研究人员可以注册访问o3 和 o3-mini的预览。OpenAI计划明年初正式发布这些新的o3模型。
也意味着,OpenAI开发其下一个主要AI模型 GPT-5 的努力正落后于计划,其结果还不能证明巨大的成本是合理的。这与The Information早些时候的一篇报道相呼应,该报道称,由于GPT-5可能不像以前的模型那样代 表着巨大的飞跃,OpenAI正在寻求新的战略。
报道包含了有关代号为 Orion 的 GPT-5 历时 18 个月的开发过程的更多细节。
据报道,OpenAI 已经完成了至少两次大型训练运行,其目的是通过对大量数据进行训练来改进模型。 最初的训练运行比预期的要慢,这暗示着更大规模的运行既费时又费钱。 据报道,虽然GPT-5的性能比前代产品更好,但它的进步还不足以证明维持模型运行的成本是合理的。
报道说,OpenAI 不仅仅依赖公开数据和授权协议,还雇人通过编写代码或解决数学问题来创建新数据。 此外,OpenAI 还使用其另一个模型 o1 创建的合成数据。
OpenAI 没有立即回应置评请求。 该公司此前曾表示今年不会发布代号为 Orion 的模型。