近年来,大型语言模型(LLMs)如OpenAI、Gemini、Claude、Qwen、DeepSeek-AI的快速发展在学术界和工业界引发了关于通用人工智能(AGI)的热烈讨论。尽管密集型模型取得了显著进展,但混合专家(MoE)模型,如DeepSeek系列、Qwen系列和MiniMax-01系列,在某些特定任务上的表现甚至超越了传统的密集型模型。
然而,MoE模型的训练通常依赖于高性能计算资源(例如H100和H800 AI加速器),其高昂的成本限制了在资源受限环境中的广泛应用。
近日,蚂蚁集团Ling团队于Arxiv平台上发表一篇技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》,以在有限的资源和预算约束下高效训练LLM。Ling团队通过架构优化、训练策略革新及分布式计算框架升级,实现了在国产低性能AI加速器上的高效训练。

这一开源模型已发布于https://huggingface.co/inclusionAI。
论文摘要显示,“在这份技术报告中,我们解决了训练大规模混合专家(MoE)模型的挑战,重点关注如何克服此类系统中普遍存在的成本效率低下和资源限制问题。为此,我们提出了两种不同规模的MoE大语言模型(LLM)——Ling-Lite和Ling-Plus(中文名“百灵”,拼音Bailing)。Ling-Lite包含168亿参数(激活参数27.5亿),而Ling-Plus拥有2900亿参数(激活参数288亿)。两个模型均表现出与行业领先基准相媲美的性能。本报告提供了可操作的见解,以提升资源受限环境下AI开发的效率和可及性,推动更具扩展性和可持续性的技术发展。具体而言,为降低MoE模型的训练成本,我们提出了以下创新方法:
- 模型架构与训练流程优化;
- 训练异常处理改进;
- 模型评估效率提升。
此外,通过知识图谱生成的高质量数据,我们的模型在工具使用能力上优于其他模型。实验表明,3000亿参数的MoE LLM可在低性能设备上有效训练,性能与同规模密集模型/MoE模型相当。与高性能设备相比,预训练阶段使用低规格硬件系统可节省约20%的计算成本。”
Ling系列模型在英语和中文的语言理解上达到行业领先水平,在复杂数学问题求解和代码生成任务中表现突出,支持工具使用并具备高安全性设计,适用于金融、医疗等高敏感场景。
文档还包括了一个关于安全性的评估,比较了Ling-Plus模型与其他几个模型的安全性能。结果显示Ling-Plus在拒绝错误输出的同时保持了良好的实用性,得分高于一些竞争对手。
蚂蚁集团此次突破的核心在于通过国产芯片与算法优化的协同创新,不仅实现了与英伟达芯片相当的训练效果,还大幅降低了算力成本。
以Ling-Plus模型为例,若使用高性能硬件(如英伟达H800)训练1万亿token,成本约为635万元;而采用低规格国产芯片系统,成本降至508万元,节省近20%。
消息指出,虽然蚂蚁集团未完全放弃使用英伟达芯片,但新模型已开始转向以中国半导体及部分Advanced Micro Devices(AMD)处理器为主。对此,蚂蚁集团尚未正式回应。
Bloomberg Intelligence分析师表示,蚂蚁集团这项研究突显中国AI技术发展速度之快,也反映国产科技已具备自我供应的潜力,逐步摆脱对美国先进芯片的依赖。
2025年3月,蚂蚁集团首次公开回应投资布局调整,将资金从成熟项目转向大模型、AI算力、具身智能等前沿领域。蚂蚁集团通过减持奥比中光(套现5.56亿元)与永安行(套现2.19亿元)两家上市公司,累计回收资金超7.75亿元,这是基于“AI First”战略的主动调整。
文献链接:https://arxiv.org/pdf/2503.05139
