刚刚,OpenAI发布GPT-4.1!全系支持百万token上下文,全方位碾压GPT-4o并且价格更低

BOE知识酷 2025-04-15 11:30

图片

知识酷Pro 👆
学显示行业知识
找小酷!

第1916篇推文


今天凌晨,OpenAI 的新系列模型 GPT-4.1 如约而至。


图片


该系列包含了三个模型,分别是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,它们仅通过 API 调用,并已向所有开发者开放


随着该系列模型在很多关键功能上提供了类似或更强的性能,并且成本和延迟更低,因此 OpenAI 将开始在 API 中弃用 GPT-4.5 预览版。弃用时间为三个月后(2025 年 7 月 14 日),从而为开发者提供时间过渡。


OpenAI 表示,这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在编程和指令遵循方面均有显著提升。它们还拥有更大的上下文窗口 —— 支持高达 100 万个上下文 token,并且能够通过改进的长上下文理解更好地利用这些上下文。知识截止日期已更新至 2024 年 6 月。


总的来说,GPT-4.1 在以下行业标准指标上表现出色:


  • 编程:GPT-4.1 在 SWE-bench Verified 测试中得分为 54.6%,比 GPT-4o 提升 21.4%,比 GPT-4.5 提升 26.6%,使其成为领先的编程模型。

  • 指令遵循:在 Scale 的 MultiChallenge 基准测试(衡量指令遵循能力的指标)中,GPT-4.1 得分为 38.3%,比 GPT-4o 提升了 10.5%。

  • 长上下文:在多模态长上下文理解基准测试 Video-MME 中,GPT-4.1 创下了新的最高纪录 —— 在长篇无字幕测试中得分为 72.0%,比 GPT-4o 提升了 6.7%。


虽然基准测试成绩非常不错,但 OpenAI 在训练这些模型时重点关注了实际效用。通过与开发者社区的密切合作和伙伴关系,OpenAI 针对开发者应用最相关的任务优化来这些模型。


为此,GPT-4.1 模型系列以更低的成本提供了卓越的性能。这些模型在延迟曲线的每个点上都实现了性能的提升。


图片


GPT-4.1 mini 在小型模型性能上实现了显著飞跃,甚至在多项基准测试中超越了 GPT-4o。该模型在智能评估方面与 GPT-4o 旗鼓相当甚至超越,同时将延迟降低了近一半,成本降低了 83%。


对于要求低延迟的任务,GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型。该模型拥有  100 万 token 上下文窗口,在小规模下仍能提供卓越的性能,在 MMLU 测试中得分达 80.1%、在 GPQA 测试中得分达  50.3%、在 Aider 多语言编码测试中得分达 9.8%,甚至高于 GPT-4o mini。该模型是分类或自动补全等任务的理想选择。


在指令遵循可靠性和长上下文理解方面的改进,也使  GPT-4.1 模型在驱动智能体(即能够代表用户独立完成任务的系统)方面更加高效。结合 Responses API  等原语,开发者现在可以构建在实际软件工程中更有用、更可靠的智能体,从大型文档中提取洞见,以最少的手动操作解决客户请求,以及执行其他复杂任务。


同时,通过提升推理系统的效率,OpenAI 得以降低 GPT-4.1 系列的价格。GPT-4.1 的中等规模查询成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今为止最便宜、速度最快的模型


对于重复传递相同上下文的查询,OpenAI 将新系列模型的即时缓存折扣从之前的 50% 提升至 75%。此外,除了标准的每 token 成本外,OpenAI 还提供长上下文请求,并且无需额外付费。


图片


OpenAI CEO 山姆・奥特曼表示,GPT-4.1 不仅基准测试成绩优异,并且专注真实世界的实用性,应该会令开发者开心的。


图片


看起来,OpenAI 实现了自家模型能力上的「4.10﹥4.5」。


图片

图源:https://x.com/stevenheidel/status/1911833398588719274


编程


GPT-4.1 在各种编码任务上都显著优于 GPT-4o,包括智能体解决编码任务、前端编程、减少无关编辑、可靠遵循 diff 格式、确保工具使用一致性等任务。


在衡量真实世界软件工程技能的 SWE-bench Verified 测试中,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o(2024-11-20)完成了 33.2%。这反映了该模型在探索代码库、完成任务以及生成可运行和通过测试的代码方面的能力提升。


图片


对于需要编辑大型文件的  API 开发者来说,GPT-4.1 在处理各种格式的代码 diff 时更可靠。在 Aider 的多语言差异基准测试中,GPT-4.1 的得分是  GPT-4o 的两倍多,甚至比 GPT-4.5 高出 8%。这项评估既衡量了跨多种编程语言的编码能力,也衡量了模型在整体和 diff  格式下生成更改的能力。


OpenAI 专门训练了 GPT-4.1,使其能够更可靠地遵循 diff 格式,这使得开发者只需输出更改的行,而无需重写整个文件,节省成本和延迟。同时,对于喜欢重写整个文件的开发者,OpenAI 将 GPT-4.1 的输出 token 限制增加到 32,768 个 token(高于 GPT-4o 的 16,384 个 token)。OpenAI 还建议使用预测输出来减少完整文件重写的延迟。


图片


GPT-4.1 在前端编程方面也较 GPT-4o 有了显著提升,能够创建功能更强大、更美观的 Web 应用。在 head-to-head 对比中,付费人工评分员 80% 的评分结果显示,GPT-4.1 的网站比 GPT-4o 的网站更受欢迎。


图片


除了上述基准测试之外,GPT-4.1 在遵循格式方面表现更佳,可靠性更高,并且减少了无关编辑的频率。在 OpenAI 内部评估中,代码中的无关编辑从 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。


指令遵循


GPT-4.1 能够更可靠地遵循指令,并在各种指令遵循评估中实现了显著的改进。OpenAI 开发了一个内部指令遵循评估系统,用于跟踪模型在多个维度和几个关键指令执行类别中的表现,包括:


  • 格式遵循。提供指令,指定模型响应的自定义格式,例如 XML、YAML、Markdown 等。

  • 负面指令。指定模型应避免的行为,例如:「不要要求用户联系支持人员」。

  • 有序指令。提供一组模型必须按给定顺序遵循的指令,例如:「首先询问用户的姓名,然后询问他们的电子邮件地址」。

  • 内容要求。输出包含特定信息的内容,例如:「编写营养计划时,务必包含蛋白质含量」。

  • 排序。以特定方式对输出进行排序,例如:「按人口数量对响应进行排序」。

  • 过度自信。指示模型在请求的信息不可用或请求不属于给定类别时回答「我不知道」或类似的内容,例如:「如果您不知道答案,请提供支持联系电子邮件地址」。


这些类别是根据开发者的反馈得出的,表明了哪些指令遵循对他们来说最相关且最重要。在每个类别中,OpenAI 将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o


图片


多轮指令遵循对许多开发者来说至关重要。对于模型来说,在对话中保持连贯性并跟踪用户之前输入的内容至关重要。GPT-4.1  能够更好地从对话中的过往消息中识别信息,从而实现了更自然的对话。Scale 的 MultiChallenge基准测试是衡量这一能力的有效指标,GPT-4.1 的表现比 GPT-4o 提高了 10.5%


图片


GPT-4.1 在 IFEval 上也得到了 87.4%,而 GPT-4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示,例如指定内容长度或避免使用某些术语或格式。


图片


更佳的指令遵循能力使现有应用程序更加可靠,并支持此前受可靠性低下限制的新应用程序。早期测试人员指出,GPT-4.1 可以更加直观,因此 OpenAI 建议在提示中更加明确和具体。


长上下文


GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个上下文 token,而之前的 GPT-4o 模型最多可处理 12.8 万个。100 万个 token 相当于 8 个完整的 React 代码库,因此长上下文非常适合处理大型代码库或大量长文档。


GPT-4.1 能够可靠地处理 100 万 token 上下文长度的信息,并在注意相关文本和忽略长短上下文干扰项方面比 GPT-4o 更加可靠。长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。


图片


OpenAI  演示了 GPT-4.1 检索位于上下文窗口内各个点的隐藏小信息(needle)的能力。GPT-4.1  能够持续准确地检索所有位置和所有上下文长度的 needle,最大检索量可达 100 万个 token。无论这些 token  在输入中的位置如何,GPT-4.1 都能有效地提取与当前任务相关的细节。


然而,现实世界中很少有任务像检索一个显而易见的「needle 」答案那样简单。OpenAI 发现用户经常需要模型检索和理解多条信息,并理解这些信息之间的相互关联。为了展示这一能力,OpenAI 开源了一项新的评估:OpenAI-MRCR(多轮共指)


OpenAI-MRCR  测试模型识别并消除上下文中隐藏的多个「needle  」的能力。评估包括用户和助手之间的多轮合成对话,用户要求助手撰写一篇关于某个主题的文章,例如「写一首关于貘的诗」或「写一篇关于岩石的博客文章」,接着会在整个上下文中插入两个、四个或八个相同的请求,最后模型必须检索与特定实例对应的响应(例如「给我第三首关于貘的诗」)。


挑战在于这些请求与上下文其余部分的相似性,模型很容易被细微的差异误导,例如关于貘的短篇故事而不是诗歌,或者关于青蛙的诗歌而不是貘。OpenAI 发现,GPT-4.1 在上下文长度高达 128K 个 token 时的表现优于 GPT-4o,并且即使长度高达 100 万个 token 时也能保持强劲的性能


图片


OpenAI 还发布了 Graphwalks⁠,这是一个用于评估多跳长上下文推理的数据集。许多开发者在长上下文用例中需要在上下文中进行多次逻辑跳跃,例如在编写代码时在多个文件之间跳转,或在回答复杂的法律问题时交叉引用文档。


理论上,模型(甚至人类)可以通过一遍遍阅读提示词来解决 OpenAI-MRCR 问题,但 Graphwalks 的设计要求在上下文中的多个位置进行推理,并且无法按顺序求解。


Graphwalks 会用由十六进制哈希值组成的有向图填充上下文窗口,然后要求模型从图中的随机节点开始执行广度优先搜索 (BFS)。然后要求它返回一定深度的所有节点。结果显示,GPT-4.1 在此基准测试中达到了 61.7% 的准确率,与 o1 的性能相当,并轻松击败了 GPT-4o


图片


视觉


GPT-4.1 系列模型在图像理解方面同样非常强大,尤其是 GPT-4.1 mini 实现了重大的飞跃,在图像基准测试中经常击败 GPT-4o


以下为 MMMU(回答包含图表、图解、地图等的问题)、MathVista⁠(解决视觉数学问题)、CharXiv-Reasoning(回答科学论文中关于图表的问题)等基准上的表现对比。


图片

图片

图片


长上下文性能对于多模态用例(例如处理长视频)也至关重要。在 Video-MME(长视频无字幕)中,模型基于 30-60 分钟长的无字幕视频回答多项选择题。GPT-4.1 达到了最佳性能,得分为 72.0%,高于 GPT-4o 的 65.3%


图片


更多测试指标请参考 OpenAI 原博客。


博客地址:https://openai.com/index/gpt-4-1/


© THE END 



BOE知识酷 欢迎加入知识酷Pro,分享显示行业知识、最新黑科技、办公软件技巧等。
评论 (0)
  • 现阶段,Zigbee、Z-Wave、Thread、Wi-Fi与蓝牙等多种通信协议在智能家居行业中已得到广泛应用,但协议间互不兼容的通信问题仍在凸显。由于各协议自成体系、彼此割据,智能家居市场被迫催生出大量桥接器、集线器及兼容性软件以在不同生态的设备间构建通信桥梁,而这种现象不仅增加了智能家居厂商的研发成本与时间投入,还严重削减了终端用户的使用体验。为应对智能家居的生态割裂现象,家居厂商需为不同通信协议重复开发适配方案,而消费者则需面对设备入网流程繁琐、跨品牌功能阉割及兼容隐患等现实困境。在此背景
    华普微HOPERF 2025-04-17 17:53 121浏览
  •   无人机电磁兼容模拟训练系统软件:全方位剖析   一、系统概述   北京华盛恒辉无人机电磁兼容模拟训练系统软件,专为满足无人机于复杂电磁环境下的运行需求而打造,是一款专业训练工具。其核心功能是模拟无人机在电磁干扰(EMI)与电磁敏感度(EMS)环境里的运行状况,助力用户评估无人机电磁兼容性能,增强其在复杂电磁场景中的适应水平。   应用案例   目前,已有多个无人机电磁兼容模拟训练系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机电磁兼容模拟训练系统。这些成功案例为
    华盛恒辉l58ll334744 2025-04-17 14:52 65浏览
  • 近日,全球6G技术与产业生态大会(简称“全球6G技术大会”)在南京召开。紫光展锐应邀出席“空天地一体化与数字低空”平行论坛,并从6G通信、感知、定位等多方面分享了紫光展锐在6G前沿科技领域的创新理念及在空天地一体化技术方面的研发探索情况。全球6G技术大会是6G领域覆盖广泛、内容全面的国际会议。今年大会以“共筑创新 同享未来”为主题,聚焦6G愿景与关键技术、安全可信、绿色可持续发展等前沿主题,汇聚国内外24家企业、百余名国际知名高校与科研代表共同商讨如何推动全行业6G标准共识形成。6G迈入关键期,
    紫光展锐 2025-04-17 18:55 202浏览
  •     爬电距离指的是两个带电体之间、带电体和大地之间,沿着绝缘材料表面的最短距离。与爬电距离有关的标准有IEC 61010-1。PCB设计方面,可以参照IPC-2221B。        (图源TI)    任何情况下,爬电距离不允许小于电气间隙。当绝缘材料是空气时,爬电距离可以和电气间隙相等。电气间隙的简介见协议标准第011篇。        一般情况下
    电子知识打边炉 2025-04-19 20:54 45浏览
  •   无人机电磁环境效应仿真系统:深度剖析   一、系统概述   无人机电磁环境效应仿真系统,专为无人机在复杂电磁环境下的性能评估及抗干扰能力训练打造。借助高精度仿真技术,它模拟无人机在各类电磁干扰场景中的运行状态,为研发、测试与训练工作提供有力支撑。   应用案例   目前,已有多个无人机电磁环境效应仿真系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机电磁环境效应仿真系统。这些成功案例为无人机电磁环境效应仿真系统的推广和应用提供了有力支持。   二、系统功能  
    华盛恒辉l58ll334744 2025-04-17 15:51 150浏览
  • 一、行业背景与需求智能门锁作为智能家居的核心入口,正从单一安防工具向多场景交互终端演进。随着消费者对便捷性、安全性需求的提升,行业竞争已从基础功能转向成本优化与智能化整合。传统门锁后板方案依赖多颗独立芯片(如MCU、电机驱动、通信模块、语音模块等),导致硬件复杂、功耗高、开发周期长,且成本压力显著。如何通过高集成度方案降低成本、提升功能扩展性,成为厂商破局关键。WTVXXX-32N语音芯片通过“单芯片多任务”设计,将语音播报、电机驱动、通信协议解析、传感器检测等功能整合于一体,为智能门锁后板提供
    广州唯创电子 2025-04-18 09:04 185浏览
  •   无人机蜂群电磁作战仿真系统软件,是专门用于模拟、验证无人机蜂群在电磁作战环境中协同、干扰、通信以及对抗等能力的工具。下面从功能需求、技术架构、典型功能模块、发展趋势及应用场景等方面展开介绍:   应用案例   目前,已有多个无人机蜂群电磁作战仿真系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机蜂群电磁作战仿真系统。这些成功案例为无人机蜂群电磁作战仿真系统的推广和应用提供了有力支持。   功能需求   电磁环境建模:模拟构建复杂多样的电磁环境,涵盖各类电磁干扰源与
    华盛恒辉l58ll334744 2025-04-17 16:49 145浏览
  •   北京华盛恒辉无人机电磁兼容模拟训练系统软件是专门用于模拟与分析无人机在复杂电磁环境中电磁兼容性(EMC)表现的软件工具。借助仿真技术,它能帮助用户评估无人机在电磁干扰下的性能,优化电磁兼容设计,保障无人机在复杂电磁环境中稳定运行。   应用案例   目前,已有多个无人机电磁兼容模拟训练系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机电磁兼容模拟训练系统。这些成功案例为无人机电磁兼容模拟训练系统的推广和应用提供了有力支持。   系统功能   电磁环境建模:支持三维
    华盛恒辉l58ll334744 2025-04-17 15:10 110浏览
  • 1. 在Ubuntu官网下载Ubuntu server  20.04版本https://releases.ubuntu.com/20.04.6/2. 在vmware下安装Ubuntu3. 改Ubuntu静态IP$ sudo vi /etc/netplan/00-installer-config.yaml# This is the network config written by 'subiquity'network:  renderer: networkd&nbs
    二月半 2025-04-17 16:27 156浏览
  •     CTI是Comparative Tracking Indices的缩写,在GB 4207中被译作“比较追踪指数”,我认为还是“漏电起痕指数”更容易理解。    CTI表述了材料的绝缘特性——阻止不希望出现的电流。CTI的单位是V,在绝缘物表面添加一定量的电解液并施加电场,观察在绝缘物表面既不会持续产生火焰,也不会因为热、介质击穿、湿气或者污染物产生电弧放电留下痕迹(起痕)的最高电压。CTI的测量方法见IEC 60112 (GB 4207)。&nbs
    电子知识打边炉 2025-04-19 21:20 54浏览
  •   无人机蜂群电磁作战仿真系统全解析   一、系统概述   无人机蜂群电磁作战仿真系统是专业的仿真平台,用于模拟无人机蜂群在复杂电磁环境中的作战行为与性能。它构建虚拟电磁环境,模拟无人机蜂群执行任务时可能遇到的电磁干扰与攻击,评估作战效能和抗干扰能力,为其设计、优化及实战应用提供科学依据。   应用案例   目前,已有多个无人机蜂群电磁作战仿真系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机蜂群电磁作战仿真系统。这些成功案例为无人机蜂群电磁作战仿真系统的推广和应用提
    华盛恒辉l58ll334744 2025-04-17 16:29 166浏览
  • 一、行业背景与需求随着智能化技术的快速发展和用户对便捷性需求的提升,电动车行业正经历从传统机械控制向智能交互的转型。传统电动车依赖物理钥匙、遥控器和独立防盗装置,存在操作繁琐、功能单一、交互性差等问题。用户期待通过手机等智能终端实现远程控制、实时数据监控及个性化交互体验。为此,将蓝牙语音芯片集成至电动车中控系统,成为推动智能化升级的关键技术路径。二、方案概述本方案通过在电动车中控系统中集成WT2605C蓝牙语音芯片,构建一套低成本、高兼容性的智能交互平台,实现以下核心功能:手机互联控制:支持蓝牙
    广州唯创电子 2025-04-18 08:33 193浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦