超万卡集群的核心设计原则和总体架构

智能计算芯世界 2024-05-26 07:22

当前,超万卡集群的建设仍处于起步阶段,主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。

随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,超万卡集群亟需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计算能力、基于DPU实现多计算能力融合以及追求极致算力能效比,具体参阅文章“超万卡训练集群互联关键技术”。

1、超万卡集群核心设计原则

在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转,超万卡集群的总体设计应遵循以下五大原则:

●坚持打造极致集群算力:基于Scale-up互联打造单节点算力峰值,基于Scale-out互联将单集群规模推高至万卡以上,两者叠加构建超万卡集群的大算力基座;

●坚持构建协同调优系统:依托超大规模的算力集群,通过DP/PP/TP/EP等各种分布式并行训练策略,持续提升有效算力,实现极致的计算通信比,最大化模型开发效率;

●坚持实现长稳可靠训练:具备自动检测和修复软硬件故障的能力,面向千万器件满负荷运行系统,持续提升MTBF和降低MTTR并实现自动断点续训能力,支持千亿稠密、万亿稀疏大模型百天长稳训练,保证系统稳定性和鲁棒性;

●坚持提供灵活算力供给:支持集群算力调度,提供灵活弹性的算力供给和隔离手段,实现训练和推理资源的按需调配,保持单集群大作业和多租户多任务并行训练性能持平;

●坚持推进绿色低碳发展:持续推进全套液冷解决方案在超万卡集群的应用,追求极致绿色算力能效比(FLOPs/W)和极低液冷PUE至1.10以下。

2、超万卡集群整体架构设计

超万卡集群的总体架构由四层一域构成(如图1),四层分别是机房配套、基础设施、智算平台和应用使能,一域是智算运营和运维域。

●机房配套层:匹配超万卡集群高密集约的建设模式,机房配套设施需重点考虑高效供电、制冷设计、楼板承重和走线架设计等。

●基础设施层:算、网、存三大硬件资源有机配合,达成集群算力最优。面向算力,CPU、GPU、DPU三大芯片协同,最大化发挥集群计算能力;面向网络,参数面、数据面、业务面、管理面独立组网,参数面/数据面采用大带宽RoCE交换和二层无阻塞CLOS组网满足大象流,支持参数面负载均衡和多租安全隔离;面向存储,引入融合存储和分级存储支持无阻塞数据并发访问。

●智算平台层:采用K8s,对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳管的基础上,进一步实现大规模集群的自动化精准故障管理,以达成高效训练、长稳运行的目标。面向未来,考虑集群中引入异厂家GPU芯片,为避免智算碎片化问题,引入算力原生,实现应用跨架构迁移和异构混训等平台能力。

●应用使能层:包括模型训练框架和开发工具集两个模块,一方面基于现有开源框架能力,进行分布式训练调优,面向未来开展自动分布式训练框架设计,积累经验,实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优;另一方面,研发沉淀数据服务、模型部署开发等工具集,逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。

●智算运营和运维域:支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度,支持多任务并行训练。

下载链接:
《大模型技术在行业应用实践合集(1)》
1、基于多模态智能引擎大模型知识库技术应用 2、饿了么垂域大模型EGPT训练与C端应用实践 3、金山云:大模型推动知识工作领域的创新与变革 4、超大规模集群下大语言模型训练的最佳实践 5、蚂蚁大模型存储加速实践
《大模型技术在行业应用实践合集(2)》
1、大模型数据安全:从测评到实时检测的全流程实践 2、大模型原生应用产品设计的前沿探索 3、海天瑞声在大模型数据的探索与实践 4、类 Sora 开源架构模型训练实践 5、大模型 AI 训练的数据存储加速
《大模型技术在行业应用实践合集(3)》
1、基于 AI 大模型生成微信小程序的探索与实践 2、教育大模型,说你行你才行 3、大模型赋能的数据资产平台构建实践 4、大规模微服务破局之道:合并编译 5、大规模工程及领域架构治理与服务架构合理性的度量
《大模型技术在行业应用实践合集(4)》
1、MoonBit 月兔:大语言模型时代的软件开发起点 2、AI 大模型技术在数据库 DevOps 的实践 3、大模型应用开发新范式 4、大模型赋能 DevOps,研发全环节提速 5、大模型技术在快手搜索的应用 6、快意大模型在短视频互动场景的应用探索
《超大模型训练技术合集》
1、超大规模多模态预训练模型M6的关键技术突破及产业应用 2、高效训练百万亿参数预训练模型的系统挑战和对策
量子科技专题系列一:逐梦量子,星辰大海(2024)
《半导体行业深度报告合集(2024)》
大模型时代:生成式AI发展与科技创新范式
OpenAI的飞轮:AI新产品、巨量融资、需求和算力
大语言模型:LLM技术报告
《先进计算技术专题》
1、先进计算应用创新白皮书(2023) 2、算力时代:先进计算十大趋势 3、先进计算技术路线图(2023年)
AI系列:光是通信的必由之路,OCS成功应用
人形机器人报告:AI超预期产业落地,核心零部件配套星辰大海
AI的内存瓶颈,高壁垒高增速(2024)
500+份重磅ChatGPT专业报告
2023年AIGC移动市场洞察报告
虚拟数字人研究报告:溯源、应用、发展(2024)
AI服务器催化HBM需求爆发,核心工艺变化带来供给端增量(2024)
《AI算力芯片产业链及全景图》
1、AI算力产业链梳理(2023) 2、国产AI算力芯片全景图
智能时代的计算架构发展趋势
《半导体行业系列报告合集》
1、半导体行业系列报告(一):道阻且长,行则将至 2、半导体行业系列报告(二)碳化硅:衬底产能持续扩充,渗透加速国产化 3、半导体行业系列报告(三)先进封装:先进封装大有可为,上下游产业链将受益
芯片未来可期:数据中心、国产化浪潮和先进封装(精华)
智算时代的容器技术演进与实践
半导体存储行业深度研究(2023)
CPU生态、价值与机遇研究(2021)
信创研究专题框架
异构芯片研究框架合集
行业研究:国产6大CPU全对比
龙芯LoongArch指令集全集
RISC-V芯片产业指令集架构研究
服务器研究框架合集
异构芯片研究框架合集
芯片技术设计和应用汇总
CPU和GPU研究框架合集

《70+篇半导体行业“研究框架”合集》

500+份重磅ChatGPT专业报告
《人工智能AI大模型技术合集》
《56份GPU技术及白皮书汇总》


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 44浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 68浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 70浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 71浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 86浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 101浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 86浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 41浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 106浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 105浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 51浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 168浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 170浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 73浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦