新型智算中心改造：网络成大模型训练瓶颈，节点内外多方案并存

智能计算芯世界 2024-05-09 07:36

详解状态监控系统的数据采集技术 构建AI未来，Arm计算平台无处不在

本文来自“新型智算中心改造：网络成大模型训练瓶颈，节点内外多方案并存”。AI大模型训练和推理拉动智能算力需求快速增长。

a）模型迭代和数量增长拉动AI算力需求增长：从单个模型来看，模型能力持续提升依赖于更大的训练数据量和模型参数量，对应更高的算力需求；从模型的数量来看，模型种类多样化（文生图、文生视频）和各厂商自主模型的研发，均推动算力需求的增长。

b）未来AI应用爆发，推理侧算力需求快速增长：各厂商基于AI大模型开发各类AI应用，随着AI应用用户数量爆发，对应推理侧算力需求快速增长。

智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心，集约化建设的新型数据中心；随着大模型普遍进入万亿规模，算力、显存、互联需求再次升级，高速互联的百卡“超级服务器”可能成为新的设备形态，智算中心将走向超级池化阶段，对设备形态、互联方案、存储、平台、散热等维度提出新的要求。

网络互联：节点内外多方案并存。1）节点内：私有方案以英伟达NVLink为代表，NVLink已经发展至第五代产品，同时支持576个GPU之间的无缝高速通信；开放技术方案以OAM和UBB为主，OCP组织定义了业内通用的AI扣卡模组形态（OAM）-基板拓扑结构（UBB）设计规范。2）节点间：主要方案为Infiniband和RoCEv2；Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、Subnet Management（SM）、连接件组成；RoCEv2网络是一个纯分布式的网络，由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。

下载链接：

新型智算中心改造：网络成大模型训练瓶颈，节点内外多方案并存

计算机行业专题报告：大模型进展2.0

2024电源管理芯片产业分析报告

量子计算：打破传统范式，通用计算应用可期

面向超万卡集群的新型智算技术白皮书（2024）

《NVIDIA BlueField系列合集》

1、NVIDIA BlueField：BlueField产品更新介绍 2、NVIDIA BlueField：BlueField硬件系统介绍

3、NVIDIA BlueField：BlueField DPU NVQual Overview

《AI Agent技术应用合集》

1、面向办公自动化领域的 AI Agent 建设思考与分享 2、AI Agent 在企业经营分析场景的落地 3、LLM和Multi-Agent在运维领域的实验探索

《大模型技术在行业应用实践合集（1）》

1、基于多模态智能引擎大模型知识库技术应用 2、饿了么垂域大模型EGPT训练与C端应用实践 3、金山云：大模型推动知识工作领域的创新与变革 4、超大规模集群下大语言模型训练的最佳实践 5、蚂蚁大模型存储加速实践

《大模型技术在行业应用实践合集（2）》

1、大模型数据安全：从测评到实时检测的全流程实践 2、大模型原生应用产品设计的前沿探索 3、海天瑞声在大模型数据的探索与实践 4、类 Sora 开源架构模型训练实践 5、大模型 AI 训练的数据存储加速

《大模型技术在行业应用实践合集（3）》

1、基于 AI 大模型生成微信小程序的探索与实践 2、教育大模型，说你行你才行 3、大模型赋能的数据资产平台构建实践 4、大规模微服务破局之道：合并编译 5、大规模工程及领域架构治理与服务架构合理性的度量

《大模型技术在行业应用实践合集（4）》

1、MoonBit 月兔：大语言模型时代的软件开发起点 2、AI 大模型技术在数据库 DevOps 的实践 3、大模型应用开发新范式 4、大模型赋能 DevOps，研发全环节提速 5、大模型技术在快手搜索的应用 6、快意大模型在短视频互动场景的应用探索

《超大模型训练技术合集》

1、超大规模多模态预训练模型M6的关键技术突破及产业应用 2、高效训练百万亿参数预训练模型的系统挑战和对策

量子科技专题系列一：逐梦量子，星辰大海（2024）

《2024年AI及大模型报告合集》

1、2024人形机器人行业研究报告 2、2024中国AI Agent行业研究报告 3、2024人工智能与职场研究报告 4、2024大型语言模型行业图谱研究报告 5、2024大模型驱动的汽车行业群体智能技术白皮书 6、2024大语言模型综合能力测评报告

2024洞悉AI人群新范式：AI机会人群社媒研究报告暨人群工厂系列白皮书

2024中国空间计算行业概览：空间计算先行，软硬件内容生态共振（摘要版）

企业竞争图谱：2024年AIPC（人工智能个人电脑）

下载链接：

人工智能系列专题报告：CoWoS技术引领先进封装，国内OSAT有望受益

人形机器人从0到1，国产化&软件赋能带来行业变革

2024年中国传感器行业现状及发展趋势研究报告

从存力到封力：CoWoS研究框架

2023年封装基板行业研究

香山：开源高性能RISC-V处理器

AI算力研究：英伟达B200再创算力奇迹，液冷、光模块持续革新

GPU深度报告：英伟达GB200 NVL72全互联技术，铜缆方案或将成为未来趋势？

人工智能系列专题报告：CoWoS技术引领先进封装，国内OSAT有望受益

软硬件融合：从DPU到超异构计算

《大模型技术能力测评合集》

1、大模型时代，智算网络性能评测挑战

2、AIGC通用大模型产品测评篇（2023）

3、人工智能大模型工业应用准确性测评

4、甲子星空坐标系：AIGC通用大模型产品测评篇

5、AIGC通用大模型产品测评篇（2023）

6、2023年中国大模型行研能力评测

《大模型时代：智能化技术合集》

1、大模型时代，智算网络性能评测挑战

2、大模型时代：智能设计的机遇和挑战

大模型时代的AI十大趋势观察

《智算系列技术合集》

1、新型智算中心算力池化技术白皮书 2、智算中心网络架构白皮书 3、面向AI大模型的智算中心网络演进白皮书 4、智算赋能算网新应用白皮书

14份半导体“AI的iPhone时刻”深度系列报告合集

12份走进“芯”时代系列深度报告合集

《70+篇半导体行业“研究框架”合集》

《42份智能网卡和DPU合集》

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1575篇粉丝：200人

 私信

新型智算中心改造：网络成大模型训练瓶颈，节点内外多方案并存

最近文章

热门文章

推荐

最新资讯