世界最快E级超算仅使用8%的GPU快速完成万亿参数大模型训练

EETOP 2024-01-08 12:07 820浏览 0评论 0点赞

芯片验证资源焦虑？云方案一招破解 AI数据中心过热？ST 10kW压缩机方案让液冷系统效能翻倍

美国橡树岭国家实验室的Frontier是全球第一台达到百亿亿次级(E级)超级计算机。也是目前全球最快的超级计算机。Frontier 超级计算机配备了9,472 个 Epyc 7A53 CPU 和37,888 个 Radeon Instinct 37,888 个GPU。

橡树岭国家实验室的研究人员在Frontier 超级计算机上训练了一个 ChatGPT 大小的大型语言模型（LLM），只需要其 37,888 个GPU 中的 3,072 个即可完成。该团队发表了一篇研究论文，详细介绍了它如何完成这一壮举以及在此过程中面临的挑战。

然而，该团队仅使用 3,072 个GPU 来训练具有 1 万亿个参数的 LLM，并使用1,024 个 GPU 来训练另一个具有1,750 亿个参数的 LLM。

该论文指出，训练如此大的LLM的关键挑战是所需的内存量，至少为14 TB。这意味着需要使用多个具有 64GB VRAM 的MI250X GPU，但这带来了一个新问题：并行性。在 LLM 上投入更多GPU 需要越来越好的通信才能有效地使用更多资源。否则，大部分或全部额外的 GPU 马力将被浪费掉。

这篇研究论文深入探讨了这些计算机工程师是如何做到的，他们迭代了Megatron-DeepSpeed 和 FSDP 等框架，以便培训计划在Frontier 上以最佳方式运行。最终，结果令人印象深刻——弱扩展效率为100%，这基本上意味着随着工作负载大小的增加，更多的 GPU 被尽可能高效地使用。

同时，1750亿参数 LLM 的强扩展效率略低，为89%，1 万亿参数 LLM 为87%。根据 Amdahl 定律，强扩展是指在不改变工作负载大小的情况下增加处理器数量，这往往是更高核心数量变得不那么有用的地方。考虑到他们使用了多少GPU，即使是 87% 也是一个不错的结果。

然而，该团队指出，在 Frontier 上实现这种效率存在一些问题，并指出“需要做更多的工作来探索AMD GPU 上的高效训练性能，而 ROCm 平台很少。正如该论文所说，这种规模的大多数机器学习都是在英伟达的CUDA软硬件生态系统中完成的，相比之下，AMD和英特尔的解决方案还不够发达。当然，这样的努力将促进这些生态系统的发展。

尽管如此，世界上最快的超级计算机仍然是 Frontier，它拥有全 AMD 硬件。排在第二位的是Aurora，其纯英特尔硬件，包括GPU，尽管目前只有一半用于基准测试提交。Nvidia GPU 为第三快的超级计算机 Eagle 提供动力。如果AMD和英特尔想要以这种方式保持排名，两家公司将需要赶上英伟达的软件解决方案。

点这里👇关注我，记得标星哦～