Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等,通过自动化管理和部分容错机制,仍然保持了较高的训练效率,达到90%以上的有效训练时间。

尽管AI大模型参数量不断增加,其性能也在不断提升,但AI训练过程中的故障率随之大幅增长。近日,Meta发布的一份研究报告显示,其在训练其4050亿参数的Llama 3模型过程中遇到了频繁的故障。而这些故障主要发生在其使用的16384个英伟达H100显卡集群上。

在为期54天的预训练中,共出现了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因,占意外中断的58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。

数据显示,用于训练Llama 3的16384个英伟达H100显卡集群在54天内出现了419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

在这419个意外中断中,148个(30.1%)是由各种GPU故障(包括NVlink故障)引起的,而72个(17.2%)是由GPU的HBM3内存故障引起的。54天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。

尽管这些问题对整个训练过程产生了显著影响,但通过自动化管理和部分容错机制,仍然保持了较高的训练效率,达到90%以上的有效训练时间。

具体而言,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。同时,Meta还重视环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。

据悉,Llama 3模型在代码生成、长文本处理、以及特定的基准测试(如MMLU、HumanEval和GSM-8K)中表现优异,并且通过其架构优化和对效率及可访问性的重视,在与GPT-4的竞争中展现出独特的优势。

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
此次仲裁的核心争议在于,杨植麟和张宇韬在未取得循环智能投资方的同意豁免书之前,便启动了融资并创立了月之暗面。2024年3月,月之暗面旗下AI应用产品Kimi大火,甚至出现二级市场Kimi概念股。
有人评论:AlphaFold-3解决了长距离依赖问题,还能预测RNA等分子结构,甚至细胞内部生化过程,这简直就是生物信息学领域的一场革命。
英国以向俄罗斯军事工业提供支持为由,宣布对多国实体及个人实施制裁,其中包括10家来自中国大陆和香港的企业。
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
全新产品几乎适用于任何应用,大幅减少元件数量、BOM成本和占板空间   瑞萨电子今日宣布,推出全新AnalogPAK™ IC系列,其中包括低功耗——SLG47001/
英国豪华跑车制造商路特斯宣布,由于市场需求变化和市场环境演变,公司将在英国裁员 200 人。上周,路特斯向员工确认了裁员消息,表示公司将尝试重新安置部分员工,并计划探索如何“在企业内部保留特定技能和知
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓世界先进11月11日公告,位于桃园的晶圆三厂于下午12:10分因供电系统设备异常,致使厂区电力中断,
今天,万众瞩目的德国慕尼黑电子展开始了。这次慕展很有可能会是史上规模最大的一次慕展!三星、博通、TI、ST、ADI、Infineon、NXP、ON、高通、Skyworks、TDK等众多芯片大厂,艾睿、
大联大控股宣布,其旗下诠鼎推出基于高通(Qualcomm)IPQ5322、QCN6422、QCN6432和QCA8386芯片的Wi-Fi 7家庭网关方案。   &nb
 会 议 预 告  活动倒计时 8 天11月20-21日 | 行家说新型显示全产业链年会近期,点莘技术、秋水半导体、纳视智能、睿励科学仪器等4家Micro LED相关企业相继完成新一轮融资,单笔金额最
11月12日,东风日产宣布成为首个与华为鸿蒙座舱全方位合作的合资品牌,双方将共创智能舒适的出行体验。                          近日,东风日产副总经理周锋在接受采访时分享了公司
ABOUT US研鼎公司总部位于上海浦东张江高科技园区,在深圳、北京和韩国设立研发和运营。是影像测试设备与解决方案领军企业,致力于视觉测试设备和分析软件产品的研发,可为客户提供优质的影像实验室Turn
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据报道,面对AMD和NVIDIA的激烈竞争,英特尔计划在2025年通过扩大与台积电
近日,市场中有关“美国商务部要求台积电暂停对中国大陆AI芯片企业供货7nm及以下芯片代工服务”的消息不断蔓延。台积电于11月8日表示:作为一家守法的公司,一向致力于遵循所有可适用的法令与法规,包括可适