许多人认为这可能是 AI 模型训练领域的一次重大突破,预示着未来 AI 模型的训练和应用将更加平民化。然而,随着更多细节浮出水面,事实似乎并不像最初报道的那样简单。

近日,一则关于李飞飞团队以不到50美元成本训练出一个名为s1的人工智能推理模型的消息在网上发酵。

2025 年 2 月,斯坦福大学和华盛顿大学的研究人员宣布,他们成功训练出了一个名为 s1 的人工智能推理模型。据报道,该模型的训练成本极低,仅需不到 50 美元的云计算费用,且仅用了 16 个英伟达 H100 GPU 进行了 26 分钟的训练,就让该模型在数学和编码能力测试中的表现能够与OpenAI的o1和DeepSeek的R1等尖端推理模型相媲美。

斯坦福s1论文原文注明模型是以阿里通义千问模型为基础微调图片来源:论文《s1: Simple test-time scaling》

许多人认为这可能是 AI 模型训练领域的一次重大突破,预示着未来 AI 模型的训练和应用将更加平民化。然而,随着更多细节浮出水面,事实似乎并不像最初报道的那样简单。

基于阿里云 Qwen “预算强制”监督微调

首先,需要澄清的是,李飞飞团队并没有从头开始训练一个新的DeepSeek R1模型。实际上,他们基于阿里云的通义千问(Qwen)模型进行监督微调,得到的是一个叫做s1-32B的模型。

这个模型是通过蒸馏法提炼出来的,利用了开源的基础模型,训练仅使用了 1000 个样本数据,这些数据是从谷歌的 Gemini 2.0 Flash Thinking Experimental 模型中提炼出来的,并通过对 Qwen 模型进行微调而实现。

AI数据公司Databricks研究员奥马尔·哈塔布(Omar Khattab)评价称,(李飞飞团队的)论文似乎是关于Qwen模型的某种发现。

图片来源:X

谷歌DeepMind资深研究员Wenhu Chen同样表示,“真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型,用同样的数据去训练,但最终并不能达到这么好的效果。”

s1-32B研究的核心则是一种称为“预算强制”的技术,这种方法允许研究人员控制模型在测试时花费的计算资源量,从而引导模型对答案进行二次检查或修正推理步骤。

图片来源:论文《s1: Simple test-time scaling》

“预算强制”具体分为两种情况:

1、若模型生成的推理 token 超过设定上限,则强制结束推理过程并附加思维结束 token,促使模型进入答案生成阶段;

2、若希望模型在问题上投入更多测试时计算资源,则抑制思维结束 token 的生成,并在推理轨迹中追加「Wait」,鼓励模型进行更深入的推理探索。

例如,当被问到“raspberry”中有几个“r”时,模型首先进行了初步推理,并得出了错误的初步结果:有2个r。但推理过程并没有就此结束,模型又重新进行推理,优化了上次回答的结果,输出了最终的答案:3个r。

图片来源:论文《s1: Simple test-time scaling》

此外,他们还构建了一个名为s1K的小型数据集,也就是上面提到的1000个样本数据,包含高质量的问题及其推理过程。研究团队从 16 个不同来源收集了 59,029 个问题,这些数据主要来自 NuminaMATH、OlympicArena、OmniMath 等数据集,并通过难度、多样性和质量三个标准进行筛选和处理。他们检查样本、排除格式不佳的数据集,选择推理链路长的问题,最终创建了s1K 数据集。

“50美元成本”的说法从何而来?

传统AI模型的训练通常需要耗费大量的计算资源和资金。例如,训练像GPT-3这样的顶级模型可能需要数百万美元的计算成本。

尽管李飞飞团队成本低至50美元的说法确实吸引了眼球,但实际上,这指的是使用云计算服务训练模型所需的成本。具体来说,这一费用反映了在16块NVIDIA H100 GPU上仅需26分钟的训练时间。值得注意的是,这并未包括硬件本身的成本,因为这些资源通常由云服务提供商承担。

也就是说,s1-32B是站在了“巨人肩膀”上,50美元的成本并没有涵盖Qwen模型的基础训练费用。

参与该项目的斯坦福大学研究员,论文作者尼克拉斯·穆宁霍夫(Niklas Muennighoff)更是表示,如今,只要约20美元就能租到所需的计算资源。

此外,s1 模型并非只训了一轮,研究人员还做了很多其他的实验和测试,因此,实际成本远高于宣传的 50 美元。正如DeepSeek-V3不到600万美元的训练成本,实际上也只包括了训练时的GPU算力费用。

这项工作的意义在于展示了如何通过有效的算法创新、数据选择以及训练策略来显著降低训练高性能AI模型的成本。虽然s1模型并非直接复制了DeepSeek R1,但它证明了即使是中等规模的模型,在经过适当的优化后,也能在特定任务上实现顶尖的表现。

业内争议:技术突破还是被夸大的成果?

争议:s1 模型是否真的媲美 o1 和 R1?

尽管 s1 模型在某些测试集上表现不俗,但多位专家指出,s1 并未真正超越顶尖模型 o1 和 R1。根据论文数据,s1 是样本效率最高的开放数据推理模型,表现明显优于其基座模型(Qwen2.5-32B-Instruct),并且在 AIME 2024 和 MATH 500 两个测试集中可以超过 o1-preview。

图片来源:论文《s1: Simple test-time scaling》

但无论在哪个测试集,s1 都没有超过“满血版” o1 和 DeepSeek-R1,差距还很大。此外,s1 的表现依赖于精心挑选的训练数据和特定的测试集,其泛化能力仍有待验证。

争议二:低成本训练的局限性

多位专家指出,s1 模型的低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。此外,1000 个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。因此,s1 模型的低成本训练虽然展示了 AI 训练的潜力,但其局限性也不容忽视。

未来AI 模型训练的新方向

s1 模型的出现以及此前 DeepSeek 的成功,都彰显了开源大模型对行业格局的重要影响。例如,DeepSeek 在发布 DeepSeek-R1 时,将其推理能力蒸馏 6 个模型开源给社区,其中 4 个模型来自 Qwen,基于 Qwen-32B 蒸馏的模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

开源社区 HuggingFace 的数据统计显示,海内外开源社区中 Qwen 的衍生模型数量已突破 9 万,2024 年,仅视觉理解 Qwen-VL 及 Qwen2-VL 两款模型全球下载量就突破 3200 万次,大模型开源生态正在迅速发展。

李飞飞团队的工作揭示了一种新的可能性,即通过聪明的技术手段和策略,可以大幅减少开发先进AI模型所需的资源。s1 模型的成功展示了知识蒸馏与微调结合的强大潜力。通过从大型模型中提炼关键知识,并将其传递给小型模型,可以在极低的成本下实现高性能。

研究显示,新模型s1-32B在使用该技术后,性能与测试时的计算资源成正相关

都去“蒸馏”了,还有人踏实做数据积累吗

对于DeepSeek这样的公司而言,这种发展可能既带来了挑战也提供了机遇。一方面,低成本的高效模型可能会对其商业模式构成威胁;另一方面,这也提示了未来发展方向,即更加注重算法和方法上的创新,而非单纯依赖昂贵的计算资源。

这种方法不仅适用于推理模型,还可以推广到其他类型的 AI 模型训练中,这对于推动人工智能技术的普及和发展具有重要意义。随着训练成本的降低,更多的企业和研究机构将能够参与到 AI 模型的开发和应用中。这将推动 AI 技术在更多领域的落地,加速行业的数字化转型。

不过,s1的出现也引发了行业的担忧。此前,OpenAI曾指控DeepSeek不当使用其API数据进行蒸馏。有分析人士质疑,如果任何人都可以轻易复制和超越现有的顶级模型,那么大型AI公司多年的研发投入和技术积累可能会受到威胁。而且,尽管蒸馏技术在以较低成本复现AI模型方面表现出色,但其对新AI模型性能的提升效果并不显著。

公众和媒体应当谨慎解读此类消息,避免过度夸大其实际影响。

责编:Luffy
  • 蒸馏是几乎所有AI公司都普通使用过的手段,甚至openai也不敢说他自己就没有用过。。。。
  • 不管怎么说Deepseek横空出世打破了丑国的AI用钱堆算力卖高价的“竭泽而渔”搞垄断的死胡同,DeepSeek的出现给AI发展指出了正确的道路,用开源AI的民主化打破了丑国对AI的封闭垄断,给全世界人民带来共享AI红利的新希望。
您可能感兴趣
此次合作被视为汽车与高科技企业融合的标杆案例,可能带动更多车企与机器人公司合作,例如在物流、售后等领域。分析师预测,未来3-5年,“具身智能+汽车”将催生千亿级市场,尤其在特种车辆(如消防、勘探)和高端乘用车领域。
此次部署也体现了人形机器人在工业领域的突破性应用。目前,Walker S1已在比亚迪、奥迪一汽等多家工厂进行实训,展现了其在协同搬运、分拣及检测等任务中的高效表现。
2025中国IC领袖峰会以“观沧海风云,磨芯剑锋芒”为主题,围绕AI、EDA工具、RISC-V等芯片设计热点话题,邀请了全球芯片设计产业链代表性企业探讨和分享了产业前沿的最新技术和行业最新的发展趋势。
Cadence AI借用大语言模型,再通过结合引擎优化,就可以加速IC设计、验证流程,进一步缩短芯片设计时长,大幅提升工程师的研发效率。
市场需求的强劲驱动是晶圆厂扩张的核心动力。AI、高性能计算、汽车电子、物联网等领域的快速发展对先进制程和成熟制程的需求持续增长。
DeepSeek降低了AI应用的成本,这是否意味着对AI芯片的需求就降低了?适配DeepSeek的AI芯片设计又应该是什么样的?来看看芯易荟的理解...
Silicon Labs(芯科科技)和Arduino宣布建立合作伙伴关系,旨在通过Arduino Nano Matter开发板(基于芯科科技的MGM240系列多协议无线模块)的两阶段合作来简化Matter协议的设计和应用
随着数据中心耗电量急剧增加,行业更迫切地需要能够高效转换电力的功率半导体。
Keysight AI(KAI)系列端到端解决方案,旨在帮助客户通过使用真实世界的AI工作负载仿真,从而验证AI集群组件来扩展数据中心的AI处理能力。
Diodes首次推出先进的锑化铟(InSb)霍尔器件传感器系列,可检测旋转速度和测量电流,适用于笔记本电脑、手机、游戏手柄等消费产品应用,以及各种家电中的电机。
在通信的世界里,有一种神奇的“魔法”叫做SDN(Software Defined Network,软件定义网络)。它就像是一位高明的指挥家,让原本错综复杂的网络变得井然有序,高效运行。然而,对于许多人
芝能智芯出品英飞凌科技搞出了大动作,宣布以25亿美元现金收购Marvell Technology的汽车以太网业务,也是汽车半导体行业的一次重要整合。通过此次收购增强其在软件定义汽车(Software-
/记得星标我/比大部分人早一步看见未来刚刚,在中国移动2025云智算大会上,我获悉了一组数据,非常关键的一组数据——中国移动已建成全国最大通智一体化算网基础设施,覆盖"通、智、量、超"四算融合的算力网
雷神EM-i超级电混,与比亚迪DM-i、本田iMMD、荣威DMH、五菱灵犀混动,同属单档串并联混动构型。它有发动机、P1发电机、P3电机三个动力部件,分为纯电、增程/串联、直驱/并联三种工作模式。 雷
视频推荐Q1,我们全新推出M3562核心板、ZIO系列插板式模组和GCOM88系列串口服务器等新品,分享了包括AWTK-WEB、嵌入式开发笔记和CAN总线等技术文章及精美的系列短视频。工业自动化Eth
点击左上角“锂电联盟会长”,即可关注!本文作者以容量20Ah的LiFePO4/石墨软包装电池为实验对象,将25℃、45℃下循环老化电池的极片与新鲜电池对比,分析微观形貌和结构变化。将不同老化状态的电池
“做芯片一定要瞄准国际最先进的产品,并且要避免只做‘一代拳王’。”芯擎科技创始人、董事兼CEO汪凯博士向《高工智能汽车》如此表示。芯擎科技创始人、董事兼CEO 汪凯博士早在2018年,芯擎科技就推出了
大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。本系列将带来FPGA的系统性学习,从最基
为深入贯彻落实《广东省关于人工智能赋能千行百业的若干措施》(粤办函〔2024〕88号)要求,加快推动智能产业化、产业智能化,我厅组织开展了人工智能终端产品、行业大模型和应用解决方案征集工作,经过单位申
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,4月9日,最高人民检察院通报,安徽江淮汽车集团控股有限公司原党委委员、副总经理王志远涉嫌受贿一案,由安徽省监察委员会调查终结,移送检察机关审