超万卡集群的核心设计原则和总体架构

智能计算芯世界 2024-05-26 07:22

【TI资料】专为高压系统设计的新型MCU 【应用手册】TI 全新MCU及C29内核的能源设施应用方案

当前，超万卡集群的建设仍处于起步阶段，主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商，其产品在大模型训练上有较大优势。得益于政策加持和应用驱动，国产AI芯片在这两年取得长足进步，但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。

随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进，超万卡集群亟需全面提升底层计算能力。具体而言，包括增强单芯片能力、提升超节点计算能力、基于DPU实现多计算能力融合以及追求极致算力能效比，具体参阅文章“超万卡训练集群互联关键技术”。

1、超万卡集群核心设计原则

在大算力结合大数据生成大模型的发展路径下，超万卡集群的搭建不是简简单单的算力堆叠，要让数万张GPU卡像一台“超级计算机”一样高效运转，超万卡集群的总体设计应遵循以下五大原则：

●坚持打造极致集群算力：基于Scale-up互联打造单节点算力峰值，基于Scale-out互联将单集群规模推高至万卡以上，两者叠加构建超万卡集群的大算力基座；

●坚持构建协同调优系统：依托超大规模的算力集群，通过DP/PP/TP/EP等各种分布式并行训练策略，持续提升有效算力，实现极致的计算通信比，最大化模型开发效率；

●坚持实现长稳可靠训练：具备自动检测和修复软硬件故障的能力，面向千万器件满负荷运行系统，持续提升MTBF和降低MTTR并实现自动断点续训能力，支持千亿稠密、万亿稀疏大模型百天长稳训练，保证系统稳定性和鲁棒性；

●坚持提供灵活算力供给：支持集群算力调度，提供灵活弹性的算力供给和隔离手段，实现训练和推理资源的按需调配，保持单集群大作业和多租户多任务并行训练性能持平；

●坚持推进绿色低碳发展：持续推进全套液冷解决方案在超万卡集群的应用，追求极致绿色算力能效比(FLOPs/W)和极低液冷PUE至1.10以下。

2、超万卡集群整体架构设计

超万卡集群的总体架构由四层一域构成(如图1)，四层分别是机房配套、基础设施、智算平台和应用使能，一域是智算运营和运维域。

●机房配套层：匹配超万卡集群高密集约的建设模式，机房配套设施需重点考虑高效供电、制冷设计、楼板承重和走线架设计等。

●基础设施层：算、网、存三大硬件资源有机配合，达成集群算力最优。面向算力，CPU、GPU、DPU三大芯片协同，最大化发挥集群计算能力；面向网络，参数面、数据面、业务面、管理面独立组网，参数面/数据面采用大带宽RoCE交换和二层无阻塞CLOS组网满足大象流，支持参数面负载均衡和多租安全隔离；面向存储，引入融合存储和分级存储支持无阻塞数据并发访问。

●智算平台层：采用K8s,对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳管的基础上，进一步实现大规模集群的自动化精准故障管理，以达成高效训练、长稳运行的目标。面向未来，考虑集群中引入异厂家GPU芯片，为避免智算碎片化问题，引入算力原生，实现应用跨架构迁移和异构混训等平台能力。

●应用使能层：包括模型训练框架和开发工具集两个模块，一方面基于现有开源框架能力，进行分布式训练调优，面向未来开展自动分布式训练框架设计，积累经验，实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优；另一方面，研发沉淀数据服务、模型部署开发等工具集，逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。

●智算运营和运维域：支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度，支持多任务并行训练。

下载链接：

《大模型技术在行业应用实践合集（1）》

1、基于多模态智能引擎大模型知识库技术应用 2、饿了么垂域大模型EGPT训练与C端应用实践 3、金山云：大模型推动知识工作领域的创新与变革 4、超大规模集群下大语言模型训练的最佳实践 5、蚂蚁大模型存储加速实践

《大模型技术在行业应用实践合集（2）》

1、大模型数据安全：从测评到实时检测的全流程实践 2、大模型原生应用产品设计的前沿探索 3、海天瑞声在大模型数据的探索与实践 4、类 Sora 开源架构模型训练实践 5、大模型 AI 训练的数据存储加速

《大模型技术在行业应用实践合集（3）》

1、基于 AI 大模型生成微信小程序的探索与实践 2、教育大模型，说你行你才行 3、大模型赋能的数据资产平台构建实践 4、大规模微服务破局之道：合并编译 5、大规模工程及领域架构治理与服务架构合理性的度量

《大模型技术在行业应用实践合集（4）》

1、MoonBit 月兔：大语言模型时代的软件开发起点 2、AI 大模型技术在数据库 DevOps 的实践 3、大模型应用开发新范式 4、大模型赋能 DevOps，研发全环节提速 5、大模型技术在快手搜索的应用 6、快意大模型在短视频互动场景的应用探索

《超大模型训练技术合集》

1、超大规模多模态预训练模型M6的关键技术突破及产业应用 2、高效训练百万亿参数预训练模型的系统挑战和对策

量子科技专题系列一：逐梦量子，星辰大海（2024）

《半导体行业深度报告合集（2024）》

大模型时代：生成式AI发展与科技创新范式

OpenAI的飞轮：AI新产品、巨量融资、需求和算力

大语言模型：LLM技术报告

《先进计算技术专题》

1、先进计算应用创新白皮书（2023） 2、算力时代：先进计算十大趋势 3、先进计算技术路线图（2023年）

AI系列：光是通信的必由之路，OCS成功应用

人形机器人报告：AI超预期产业落地，核心零部件配套星辰大海

AI的内存瓶颈，高壁垒高增速（2024）

500+份重磅ChatGPT专业报告

2023年AIGC移动市场洞察报告

虚拟数字人研究报告：溯源、应用、发展（2024）

AI服务器催化HBM需求爆发，核心工艺变化带来供给端增量（2024）

《AI算力芯片产业链及全景图》

1、AI算力产业链梳理（2023） 2、国产AI算力芯片全景图

智能时代的计算架构发展趋势

《半导体行业系列报告合集》

1、半导体行业系列报告（一）：道阻且长，行则将至 2、半导体行业系列报告（二）碳化硅：衬底产能持续扩充，渗透加速国产化 3、半导体行业系列报告（三）先进封装：先进封装大有可为，上下游产业链将受益

芯片未来可期：数据中心、国产化浪潮和先进封装（精华）

智算时代的容器技术演进与实践

半导体存储行业深度研究（2023）

CPU生态、价值与机遇研究（2021）

信创研究专题框架

异构芯片研究框架合集

行业研究：国产6大CPU全对比

龙芯LoongArch指令集全集

RISC-V芯片产业指令集架构研究

服务器研究框架合集

异构芯片研究框架合集

芯片技术设计和应用汇总

CPU和GPU研究框架合集

《70+篇半导体行业“研究框架”合集》

500+份重磅ChatGPT专业报告

《人工智能AI大模型技术合集》

《56份GPU技术及白皮书汇总》

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1557篇粉丝：199人

 私信

超万卡集群的核心设计原则和总体架构

最近文章

热门文章

推荐

最新资讯