Meta公布Llama3训练集群细节!储备60万块H100迎接AGI

美股研究社 2024-03-16 19:33

展望未来,Meta认识到,昨天或今天的工作可能无法满足明天的需求。

来源 | 新智元

每年3月份,照例各家大厂又要开始秀自己最新的产品和研究了。

OpenAI刚刚发布了震惊世人的Sora,最新的ChatGPT版本似乎也是箭在弦上。

谷歌更是举全公司之力,从去年底就开始放出了包括Gemini Ultra,Gemini 1.5,Gemma在内,各分支赛道上的惊艳成果。

可是作为开源AI的扛把子,Meta在去年发布了Llama 2和后续的模型后,就一直缺少有影响力的产品问世。

而对于开源社区来说,OpenAI虽好,可Meta才是大家真的衣食父母。大家都在翘首以待Llama 3的发布。

在Llama 3公开之前,不甘寂寞的Meta还是想到办法在行业内刷了一波存在感——秀肌肉。

Meta AI刚刚发表了一份技术博客,向公众展示了自己拥有的算力资源,以及Meta布局AI Infra的具体细节和路线图。

根据Meta的规划,到2024年底它将拥有35万个英伟达H100GPU,而未来算力储备将达到夸张的60万个H100。

而光有大量的GPU还远远不够,如如何有效地把硬件资源组织成高效的算力集群才是关键。

Meta还公布了它构建的由24576个H100GPU构成的,正在用于训练Llama 3的集群细节。

Pytorch创始人的给出的总结:

Meta用来训练Llama3的Meta 24k H100 Cluster Pods 的详细信息。


-网络:RoCEv2/Infiniband两个版本。

  Llama3在RoCEv2 上训练

-存储: 基于Tectonic/Hammerspace的NFS/FUSE

-Stock PyTorch:no real modifications that aren't upstreamed

-带有一些补丁的NCCL:补丁和交换机优化使集群实现了相当高的网络带宽。

-各种调试和集群监控工具,如 NCCL 去同步调试、内存行重映射检测等。

正在训练大模型的公司赶快来抄Meta的作业了!



Meta的H100集群细节





在Meta2022年公布的研究超级集群(RSC)基础之上,这两个100集群进一步在高性能网络结构的效率、一些关键存储决策上进行了优化。

从而使得这两个集群都能支持比RSC所能支持的模型更大,更复杂的模型,从而为未来AI研究提供更加强悍的动力。

Meta每天处理数百万亿个人工智能模型的任务和操作。

大规模提供这些服务需要高度先进且灵活的基础设施。定制设计Meta自己的大部分硬件、软件和网络结构,使他们能够优化人工智能研究人员的端到端体验,同时确保数据中心高效运行。

考虑到Meta的这个具体需求,它构建了这一个集群。

该集群采用基于Arista 7800的远程直接内存访问 (RDMA) 融合以太网 (RoCE) 网络结构解决方案,配备Wedge400和Minipack2 OCP机架式交换机。

另一个集群采用英伟达Quantum2 InfiniBand Fabric。这两种解决方案都能实现400 Gbps端点互联。

有了这两个解决方案,Meta就能够评估这些不同类型的互连是否适合大规模培训以及是否具有可扩展性,从而为Meta今后如何设计和构建更大、更大规模的集群提供更多经验。

通过对网络、软件和模型架构的精心共同设计,Meta已经成功地将RoCE和 InfiniBand集群用于大型GenAI工作负载(包括Meta正在RoCE集群上对Llama 3进行的训练),并且没有出现任何网络瓶颈。

这两个集群均使用Grand Teton构建,Grand Teton是Meta内部设计的开放式 GPU 硬件平台,Meta已将其贡献给开放计算项目 (OCP)。

Grand Teton建立在多代AI系统的基础上,将电源、控制、计算和结构接口集成到一个机箱中,以获得更好的整体性能、信号完整性和散热性能。

它采用简化设计,具有快速可扩展性和灵活性,可快速部署到数据中心机群中,并易于维护和扩展。

结合其他内部创新技术,如Meta的开放式机架电源和机架架构,Grand Teton使Meta能够针对自己当前和未来的应用构建新的集群。

从2015 年的Big Sur平台开始,Meta一直在公开设计自己的GPU硬件平台。

存储在人工智能训练中扮演着重要角色,但却是最不受关注的方面。

随着时间的推移,GenAI训练工作变得越来越多模态化,需要消耗大量的图像、视频和文本数据,因此对数据存储的需求迅速增长。

将所有数据存储纳入一个高性能、高能效的空间的需求,使得问题变得更加有趣。

Meta的存储部署通过自创的用户空间Linux文件系统(FUSE)应用程序接口(API)来满足人工智能集群的数据和检查点需求,该应用程序接口由 Meta 针对闪存媒体进行了优化的 「Tectonic 」分布式存储解决方案版本提供支持。

这个解决方案使数千个GPU能够以同步方式保存和加载检查点(这对任何存储解决方案来说都是一个挑战),同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。

Meta还与Hammerspace合作,共同开发并部署并行网络文件系统 (NFS),以满足该人工智能集群对开发人员体验的要求。

除其他优势外,Hammerspace还能让工程师使用数千个GPU对作业进行交互式调试,因为环境中的所有节点都能立即访问代码更改。

将Meta的Tectonic分布式存储解决方案和Hammerspace结合在一起,可以在不影响规模的情况下实现快速迭代。

在Meta的GenAI集群中,Tectonic和Hammerspace支持的存储部署都基于YV3 Sierra Point服务器平台,并升级了Meta目前在市场上可以采购到的最新高容量E1.S SSD。

除了更高的固态硬盘容量外,每个机架的服务器也进行了定制,以实现每台服务器吞吐能力、机架数量减少和相关能效之间的适当平衡。

利用OCP服务器作为像乐高积木一样的基本模块,Meta的存储层能够灵活扩展,以满足该集群以及未来更大的人工智能集群的未来需求,同时具有容错能力,可满足日常基础设施维护操作的要求。

Meta构建大规模人工智能集群的原则之一是同时最大限度地提高性能和易用性,而不会顾此失彼。

这是创建一流人工智能模型的重要原则。

随着Meta不断挑战人工智能系统的极限,测试Meta扩展设计能力的最佳方法就是简单地构建系统、优化系统并进行实际测试(虽然模拟器可以提供帮助,但也只能到此为止)。

在这次设计过程中,Meta比较了小型集群和大型集群的性能,从而找出瓶颈所在。

下图显示了AllGather的集体性能(以 0-100 为单位的归一化带宽),即大量GPU在信息大小为屋顶线性能预期的情况下相互通信时的性能。

从图中可以看到,小型集群性能(整体通信带宽和利用率)开箱即达到90%+,但未经优化的大型集群性能利用率非常低,从10%到90%不等。在优化整个系统(软件、网络等)后,看到大型集群性能恢复到理想的90%+范围。

与优化后的小型集群性能相比,Meta的大型集群开箱即用性能最初较差且不一致。

为了解决这个问题,Meta对内部作业调度程序的调度方式做了一些改变,使其具有网络拓扑意识——这带来了延迟优势,并最大限度地减少了流向网络上层的流量。

Meta还结合英伟达集体通信库(NCCL)的变化优化了网络路由策略,以实现最佳网络利用率。

这有助于推动Meta的大型集群实现与小型集群一样出色的预期性能。

除了针对内部基础设施的软件变更外,Meta还与编写培训框架和模型的团队密切合作,以适应不断发展的基础设施。

例如,英伟达H100 GPU为利用8位浮点(FP8)等新数据类型进行训练提供了可能。

充分利用更大的集群需要投资更多的并行化技术,而新的存储解决方案则为高度优化数千个等级的检查点提供了机会,使其能够在数百毫秒内运行。

Meta还认识到,可调试性是大规模训练的主要挑战之一。

在大规模训练中,识别导致整个训练工作停滞的问题GPU变得非常困难。

Meta正在开发desync调试或分布式集体飞行记录器等工具,以揭示分布式训练的细节,帮助以更快、更简单的方式发现问题。

最后,Meta还在继续改进PyTorch(为Meta的人工智能工作负载提供动力的基础人工智能框架),使其能够满足数万甚至数十万GPU的训练需求。

Meta已经发现了流程组初始化的多个瓶颈,并将启动时间从有时的几个小时缩短到几分钟。



致力于开放式人工智能创新



Meta始终致力于人工智能软件和硬件的开放式创新。

他们相信,开源硬件和软件将始终是帮助行业大规模解决问题的宝贵工具。

如今,Meta作为OCP的创始成员,继续支持开放式硬件创新,向OCP社区提供Grand Teton和Open Rack等设计。

Meta还是PyTorch的最大和主要贡献者,PyTorch是一个人工智能软件框架,为整个行业提供了强大的动力。

Meta还继续致力于人工智能研究社区的开放式创新。

Meta已经启动了开放创新人工智能研究社区,这是一项面向学术研究人员的合作计划,旨在加深Meta对如何负责任地开发和共享人工智能技术的理解——尤其关注LLM。

Meta还发起了人工智能联盟(AI Alliance),这是一个由人工智能行业领先组织组成的团体,致力于在一个开放的社区内加速人工智能领域负责任的创新。

Meta的人工智能工作建立在开放科学和交叉合作的理念之上。开放的生态系统为人工智能开发带来了透明度、监督和信任,并带来了每个人都能从中受益的创新,这些创新都是以安全和责任为首要考虑的。



Meta AI基础设施的未来





这两个人工智能训练集群设计是Meta未来人工智能更大路线图的一部分。

到2024年底,Meta的目标是继续扩大Meta的基础设施建设,其中将包括35万个H100,未来会扩充到60万个H100 GPU的等效算力。

展望未来,Meta认识到,昨天或今天的工作可能无法满足明天的需求。

因此,Meta会不断评估和改进基础设施的各个方面,从物理层、虚拟层到软件层,以及未来出现的新维度。

Meta的目标是创建灵活可靠的系统,以支持快速发展的新模式和研究。

关注下面公众号
和我一起探索港股市场的所有秘密
👇🏻

美股研究社 美股研究社,一个专注研究美股的平台,专业的美股投资人都在这.想了解美国股市行情、美股开户、美股资讯、美股公司;
评论
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 108浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 152浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 44浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 115浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 51浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 160浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 47浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 209浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 137浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 195浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 83浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 101浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦