Meta训练Llama 3遭遇频繁故障，一半以上源于显卡或其搭载的HBM3-电子工程专辑

扫码分享到微信好友

扫码查看更多文章

Meta团队开发了一系列工具和优化策略，包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等，通过自动化管理和部分容错机制，仍然保持了较高的训练效率，达到90%以上的有效训练时间。

尽管AI大模型参数量不断增加，其性能也在不断提升，但AI训练过程中的故障率随之大幅增长。近日，Meta发布的一份研究报告显示，其在训练其4050亿参数的Llama 3模型过程中遇到了频繁的故障。而这些故障主要发生在其使用的16384个英伟达H100显卡集群上。

在为期54天的预训练中，共出现了466次工作中断，其中47次是计划中断，419次是意外中断。计划内的中断是由于自动化维护造成的，而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因，占意外中断的58.7%。其中只有三起事件需要大量人工干预，其余的由自动化管理。

数据显示，用于训练Llama 3的16384个英伟达H100显卡集群在54天内出现了419次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。

在这419个意外中断中，148个（30.1%）是由各种GPU故障（包括NVlink故障）引起的，而72个（17.2%）是由GPU的HBM3内存故障引起的。54天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的，包括软件错误、网络电缆和网络适配器。

尽管这些问题对整个训练过程产生了显著影响，但通过自动化管理和部分容错机制，仍然保持了较高的训练效率，达到90%以上的有效训练时间。

具体而言，Meta团队开发了一系列工具和优化策略，包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。同时，Meta还重视环境因素的影响，如午间温度波动对GPU性能的轻微影响，以及巨量GPU同时运行对数据中心电网的巨大压力。

据悉，Llama 3模型在代码生成、长文本处理、以及特定的基准测试（如MMLU、HumanEval和GSM-8K）中表现优异，并且通过其架构优化和对效率及可访问性的重视，在与GPT-4的竞争中展现出独特的优势。

责编：Jimmy.zhang

人工智能处理器/DSP

Meta训练Llama 3遭遇频繁故障，一半以上源于显卡或其搭载的HBM3