尽管AI大模型参数量不断增加,其性能也在不断提升,但AI训练过程中的故障率随之大幅增长。近日,Meta发布的一份研究报告显示,其在训练其4050亿参数的Llama 3模型过程中遇到了频繁的故障。而这些故障主要发生在其使用的16384个英伟达H100显卡集群上。
在为期54天的预训练中,共出现了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因,占意外中断的58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。
数据显示,用于训练Llama 3的16384个英伟达H100显卡集群在54天内出现了419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。
在这419个意外中断中,148个(30.1%)是由各种GPU故障(包括NVlink故障)引起的,而72个(17.2%)是由GPU的HBM3内存故障引起的。54天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。
尽管这些问题对整个训练过程产生了显著影响,但通过自动化管理和部分容错机制,仍然保持了较高的训练效率,达到90%以上的有效训练时间。
具体而言,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。同时,Meta还重视环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。
据悉,Llama 3模型在代码生成、长文本处理、以及特定的基准测试(如MMLU、HumanEval和GSM-8K)中表现优异,并且通过其架构优化和对效率及可访问性的重视,在与GPT-4的竞争中展现出独特的优势。