OpenAI发布新一代AI模型GPT-4.1系列,4月15日,OpenAI正式公布,GPT-4.1系列模型包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个版本。据介绍,GPT-4.1系列模型专注于提升编程能力、指令遵循和长上下文理解。不过,这些模型目前仅通过开发者API提供,ChatGPT暂未集成,部分改进已融入GPT-4o最新版。
由于GPT-4.1系列在关键性能上变现更好,和成本上更低,OpenAI决定将GPT-4.5预览版于2025年7月14日关闭。

GPT-4.1系列包含的三个不同定位的模型变体,共享相同的基础架构,但在模型规模、处理速度和价格上进行了差异化设计。
GPT-4.1作为旗舰版,提供最佳性能和智能水平,适合需要高精度和长上下文处理的任务。
GPT-4.1 mini在小型模型性能上实现了显著飞跃,甚至在多项基准测试中超越了GPT-4o。它在智能评估方面与GPT-4o相当甚至超越,同时将延迟降低了近50%,成本降低了83%。
GPT-4.1 nano是最快的模型,适合需要低延迟的任务,如分类或自动补全。它在MMLU测试中得分80.1%,GPQA得分为50.3%,Aider多语言编码得分为9.8%,均高于GPT-4o mini。
GPT-4.1与GPT-4o的比较,以延迟为横轴,以智能为纵轴
在性能提升的同时,GPT-4.1的成本价格比GPT-4o便宜26%,GPT-4.1 nano则是OpenAI迄今最便宜、最快的模型。GPT-4.1对于重复传递相同上下文的查询,提示缓存折扣提高到了75%。此外,长文本请求不再收取额外费用,仅按标准的每标记费用计费。
OpenAI的这些技术优化措施旨在通过提高效率、减少重复计算和优化资源利用,来降低用户使用GPT-4.1系列模型的成本,并提升用户体验。
在多项基准测试中,GPT-4.1系列模型均超越了GPT-4o及其mini版本,特别是在编程、指令遵循和长上下文理解方面表现突出。
资料显示,在编码能力上,GPT-4.1在行业标准编码测试SWE-bench Verified中得分54.6%,较GPT-4o提升21.4%(绝对值),较GPT-4.5提升26.6%。指令遵循上,GPT-4.1在Scale MultiChallenge基准中得分38.3%,较GPT-4o提升10.5%(绝对值)。长文本理解上,这三个版本都支持100万个token的上下文窗口,较GPT-4o模型支持的128,000个token上下文窗口,GPT-4.1系列模型能够处理的上下文信息量是GPT-4o模型的8倍左右。GPT-4.1在Video-MME基准(无字幕长视频理解)中创下72.0%的纪录,较GPT-4o提升6.7%(绝对值)。
微软提到,GPT-4.1、4.1-mini 和 4.1-nano 已在Microsoft Azure OpenAI 服务和GitHub上线。本周晚些时候,我们将为 GPT-4.1 和 4.1-mini 启用监督式微调功能,使开发者能够根据自身独特的业务需求调整这些模型。
除了OpenAI有大动作,DeepSeek于4月14日公布推理引擎开源计划,字节跳动公开其最新思考模型Seed-Thinking-v1.5的技术细节,将于4月17日通过火山引擎开放接口供用户体验。
OpenAI 凭借千亿级参数优势,在长上下文理解和跨模态任务中保持领先。DeepSeek 则在数学推理与中文语义处理上展现锋芒。
OpenAI延续其闭源API的商业模式,通过规模化优势进一步压低成本。DeepSeek的开源路径支持双重选择:开发者可免费自部署模型,或购买商业托管服务;自建成本取决于硬件与运维投入,而托管 API 的报价约为 GPT-4.1 nano 的 60%。
DeepSeek公布的开源推理引擎,旨在推动技术普惠与社区共建。
DeepSeek 发布的官方公告内容表示,“几周前,在开源周期间,我们开源了几个库。社区的反应非常积极 —— 激发了许多鼓舞人心的合作、富有成效的讨论和宝贵的错误修复。
受到这一鼓舞,我们决定再迈出一大步:将我们的内部推理引擎贡献给开源社区。
我们对开源生态系统深表感激,没有它,我们向通用人工智能(AGI)的进步将不可能实现。我们的训练框架依赖于 PyTorch,我们的推理引擎建立在 vLLM 之上,这两者都在加速深度探索模型的训练和部署方面发挥了至关重要的作用。
随着对部署 DeepSeek-V3 和 DeepSeek-R1 等模型的需求不断增长,我们希望尽可能地为社区做出贡献。虽然我们最初考虑开源我们的完整内部推理引擎,但我们发现了一些挑战:
代码库改动大:我们的引擎基于一年多前的 vLLM 早期分支。尽管结构相似,但我们已经为 DeepSeek 模型进行了大量定制,这使得它难以扩展到更广泛的应用场景。
基础设施依赖:该引擎与我们的内部基础设施紧密耦合,包括集群管理工具,这使得在没有重大修改的情况下进行公开部署变得不切实际。
维护资源有限:作为一个专注于开发更好模型的中小研究团队,我们缺乏维护大型开源项目的资源。
鉴于这些挑战,我们决定与现有的开源项目合作,作为更可持续的替代方案。
未来,我们将与现有的开源项目紧密合作,以:
提取独立功能:模块化并贡献可重用的组件作为独立库。
分享优化:直接贡献设计改进和实现细节。
我们衷心感谢开源运动 —— 从操作系统和编程语言到机器学习框架和推理引擎。能够为这个蓬勃发展的生态系统做出贡献,并看到我们的模型和代码受到社区的广泛欢迎,我们深感荣幸。让我们携手突破通用人工智能 (AGI) 的界限,并确保其造福全人类。
注:需要说明,本文仅概述了我们开源 DeepSeek-Inference-Engine 代码库的路径。对于未来的模型发布,我们将对开源社区和硬件合作伙伴保持开放和协作的态度。我们承诺在新模型发布之前主动同步与推理(inference)相关的工程工作,目标是使社区能够从第一天起就获得 SOTA 级支持。我们的最终目标是建立一个同步的生态系统,使尖端的 AI 功能能够在模型正式发布后无缝地应用于各种硬件。”
DeepSeek 公开推理引擎开源策略,主要体现在模块化复用,优化共享和可持续协作,将内部推理引擎的可复用组件(如通信库、文件系统)独立为开源项目,向现有开源项目(如PyTorch、vLLM)贡献设计改进与实现细节, 通过“分立功能提取”解决代码库差异和维护带宽限制,与社区共建同步生态系统。
DeepSeek 通过开源构建的“护城河”,正在企业级市场加速扩张。已有开发者尝试用 DeepSeek 开源版处理数据清洗,再调用 GPT-4.1 进行创意生成,通过 API 网关实现智能路由。这种分层策略,可能成为企业平衡成本与效果的更优方案。
