可实现CUDA代码零成本迁移！摩尔线程推出首个全国产千卡千亿模型训练平台

EETOP 2023-12-20 11:41

入门级示波器多少钱合适？ 入门级示波器的属性缺陷

摩尔线程官微12月19日发布消息，摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办，宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地。与此同时，摩尔线程联合国内众多合作伙伴发起并成立了“摩尔线程PES - KUAE智算联盟”和“摩尔线程PES - 大模型生态联盟”，共同夯实从智算基础设施到大模型训练与推理的国产大模型一体化生态，持续为我国大模型产业发展加速。

摩尔线程大模型智算加速卡MTT S4000，采用第三代MUSA内核，单卡支持48GB显存和768GB/s的显存带宽。基于摩尔线程自研MTLink1.0技术，MTT S4000可以支持多卡互联，助力千亿大模型的分布式计算加速。同时，MTT S4000提供先进的图形渲染能力、视频编解码能力和超高清8K HDR显示能力，助力AI计算、图形渲染、多媒体等综合应用场景的落地。尤为重要的是，借助摩尔线程自研MUSIFY开发工具，MTT S4000计算卡可以充分利用现有CUDA软件生态，实现CUDA代码零成本迁移到MUSA平台。

分布式并行计算是实现AI大模型训练的关键手段。摩尔线程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架，并融合了多种并行算法策略，包括数据并行、张量并行、流水线并行和ZeRO，且针对高效通信计算并行和Flash Attention做了额外优化。

目前，摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调。基于摩尔线程KUAE千卡集群，70B到130B参数的大模型训练，线性加速比均可达到91%，算力利用率基本保持不变。以2000亿训练数据量为例，智源研究院700亿参数Aquila2可在33天完成训练；1300亿参数规模的模型可在56天完成训练。此外，摩尔线程KUAE千卡集群支持长时间连续稳定运行，支持断点续训，异步Checkpoint少于2分钟。