Meta公布Llama3训练集群细节!储备60万块H100迎接AGI

美股研究社 2024-03-16 19:33

展望未来,Meta认识到,昨天或今天的工作可能无法满足明天的需求。

来源 | 新智元

每年3月份,照例各家大厂又要开始秀自己最新的产品和研究了。

OpenAI刚刚发布了震惊世人的Sora,最新的ChatGPT版本似乎也是箭在弦上。

谷歌更是举全公司之力,从去年底就开始放出了包括Gemini Ultra,Gemini 1.5,Gemma在内,各分支赛道上的惊艳成果。

可是作为开源AI的扛把子,Meta在去年发布了Llama 2和后续的模型后,就一直缺少有影响力的产品问世。

而对于开源社区来说,OpenAI虽好,可Meta才是大家真的衣食父母。大家都在翘首以待Llama 3的发布。

在Llama 3公开之前,不甘寂寞的Meta还是想到办法在行业内刷了一波存在感——秀肌肉。

Meta AI刚刚发表了一份技术博客,向公众展示了自己拥有的算力资源,以及Meta布局AI Infra的具体细节和路线图。

根据Meta的规划,到2024年底它将拥有35万个英伟达H100GPU,而未来算力储备将达到夸张的60万个H100。

而光有大量的GPU还远远不够,如如何有效地把硬件资源组织成高效的算力集群才是关键。

Meta还公布了它构建的由24576个H100GPU构成的,正在用于训练Llama 3的集群细节。

Pytorch创始人的给出的总结:

Meta用来训练Llama3的Meta 24k H100 Cluster Pods 的详细信息。


-网络:RoCEv2/Infiniband两个版本。

  Llama3在RoCEv2 上训练

-存储: 基于Tectonic/Hammerspace的NFS/FUSE

-Stock PyTorch:no real modifications that aren't upstreamed

-带有一些补丁的NCCL:补丁和交换机优化使集群实现了相当高的网络带宽。

-各种调试和集群监控工具,如 NCCL 去同步调试、内存行重映射检测等。

正在训练大模型的公司赶快来抄Meta的作业了!



Meta的H100集群细节





在Meta2022年公布的研究超级集群(RSC)基础之上,这两个100集群进一步在高性能网络结构的效率、一些关键存储决策上进行了优化。

从而使得这两个集群都能支持比RSC所能支持的模型更大,更复杂的模型,从而为未来AI研究提供更加强悍的动力。

Meta每天处理数百万亿个人工智能模型的任务和操作。

大规模提供这些服务需要高度先进且灵活的基础设施。定制设计Meta自己的大部分硬件、软件和网络结构,使他们能够优化人工智能研究人员的端到端体验,同时确保数据中心高效运行。

考虑到Meta的这个具体需求,它构建了这一个集群。

该集群采用基于Arista 7800的远程直接内存访问 (RDMA) 融合以太网 (RoCE) 网络结构解决方案,配备Wedge400和Minipack2 OCP机架式交换机。

另一个集群采用英伟达Quantum2 InfiniBand Fabric。这两种解决方案都能实现400 Gbps端点互联。

有了这两个解决方案,Meta就能够评估这些不同类型的互连是否适合大规模培训以及是否具有可扩展性,从而为Meta今后如何设计和构建更大、更大规模的集群提供更多经验。

通过对网络、软件和模型架构的精心共同设计,Meta已经成功地将RoCE和 InfiniBand集群用于大型GenAI工作负载(包括Meta正在RoCE集群上对Llama 3进行的训练),并且没有出现任何网络瓶颈。

这两个集群均使用Grand Teton构建,Grand Teton是Meta内部设计的开放式 GPU 硬件平台,Meta已将其贡献给开放计算项目 (OCP)。

Grand Teton建立在多代AI系统的基础上,将电源、控制、计算和结构接口集成到一个机箱中,以获得更好的整体性能、信号完整性和散热性能。

它采用简化设计,具有快速可扩展性和灵活性,可快速部署到数据中心机群中,并易于维护和扩展。

结合其他内部创新技术,如Meta的开放式机架电源和机架架构,Grand Teton使Meta能够针对自己当前和未来的应用构建新的集群。

从2015 年的Big Sur平台开始,Meta一直在公开设计自己的GPU硬件平台。

存储在人工智能训练中扮演着重要角色,但却是最不受关注的方面。

随着时间的推移,GenAI训练工作变得越来越多模态化,需要消耗大量的图像、视频和文本数据,因此对数据存储的需求迅速增长。

将所有数据存储纳入一个高性能、高能效的空间的需求,使得问题变得更加有趣。

Meta的存储部署通过自创的用户空间Linux文件系统(FUSE)应用程序接口(API)来满足人工智能集群的数据和检查点需求,该应用程序接口由 Meta 针对闪存媒体进行了优化的 「Tectonic 」分布式存储解决方案版本提供支持。

这个解决方案使数千个GPU能够以同步方式保存和加载检查点(这对任何存储解决方案来说都是一个挑战),同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。

Meta还与Hammerspace合作,共同开发并部署并行网络文件系统 (NFS),以满足该人工智能集群对开发人员体验的要求。

除其他优势外,Hammerspace还能让工程师使用数千个GPU对作业进行交互式调试,因为环境中的所有节点都能立即访问代码更改。

将Meta的Tectonic分布式存储解决方案和Hammerspace结合在一起,可以在不影响规模的情况下实现快速迭代。

在Meta的GenAI集群中,Tectonic和Hammerspace支持的存储部署都基于YV3 Sierra Point服务器平台,并升级了Meta目前在市场上可以采购到的最新高容量E1.S SSD。

除了更高的固态硬盘容量外,每个机架的服务器也进行了定制,以实现每台服务器吞吐能力、机架数量减少和相关能效之间的适当平衡。

利用OCP服务器作为像乐高积木一样的基本模块,Meta的存储层能够灵活扩展,以满足该集群以及未来更大的人工智能集群的未来需求,同时具有容错能力,可满足日常基础设施维护操作的要求。

Meta构建大规模人工智能集群的原则之一是同时最大限度地提高性能和易用性,而不会顾此失彼。

这是创建一流人工智能模型的重要原则。

随着Meta不断挑战人工智能系统的极限,测试Meta扩展设计能力的最佳方法就是简单地构建系统、优化系统并进行实际测试(虽然模拟器可以提供帮助,但也只能到此为止)。

在这次设计过程中,Meta比较了小型集群和大型集群的性能,从而找出瓶颈所在。

下图显示了AllGather的集体性能(以 0-100 为单位的归一化带宽),即大量GPU在信息大小为屋顶线性能预期的情况下相互通信时的性能。

从图中可以看到,小型集群性能(整体通信带宽和利用率)开箱即达到90%+,但未经优化的大型集群性能利用率非常低,从10%到90%不等。在优化整个系统(软件、网络等)后,看到大型集群性能恢复到理想的90%+范围。

与优化后的小型集群性能相比,Meta的大型集群开箱即用性能最初较差且不一致。

为了解决这个问题,Meta对内部作业调度程序的调度方式做了一些改变,使其具有网络拓扑意识——这带来了延迟优势,并最大限度地减少了流向网络上层的流量。

Meta还结合英伟达集体通信库(NCCL)的变化优化了网络路由策略,以实现最佳网络利用率。

这有助于推动Meta的大型集群实现与小型集群一样出色的预期性能。

除了针对内部基础设施的软件变更外,Meta还与编写培训框架和模型的团队密切合作,以适应不断发展的基础设施。

例如,英伟达H100 GPU为利用8位浮点(FP8)等新数据类型进行训练提供了可能。

充分利用更大的集群需要投资更多的并行化技术,而新的存储解决方案则为高度优化数千个等级的检查点提供了机会,使其能够在数百毫秒内运行。

Meta还认识到,可调试性是大规模训练的主要挑战之一。

在大规模训练中,识别导致整个训练工作停滞的问题GPU变得非常困难。

Meta正在开发desync调试或分布式集体飞行记录器等工具,以揭示分布式训练的细节,帮助以更快、更简单的方式发现问题。

最后,Meta还在继续改进PyTorch(为Meta的人工智能工作负载提供动力的基础人工智能框架),使其能够满足数万甚至数十万GPU的训练需求。

Meta已经发现了流程组初始化的多个瓶颈,并将启动时间从有时的几个小时缩短到几分钟。



致力于开放式人工智能创新



Meta始终致力于人工智能软件和硬件的开放式创新。

他们相信,开源硬件和软件将始终是帮助行业大规模解决问题的宝贵工具。

如今,Meta作为OCP的创始成员,继续支持开放式硬件创新,向OCP社区提供Grand Teton和Open Rack等设计。

Meta还是PyTorch的最大和主要贡献者,PyTorch是一个人工智能软件框架,为整个行业提供了强大的动力。

Meta还继续致力于人工智能研究社区的开放式创新。

Meta已经启动了开放创新人工智能研究社区,这是一项面向学术研究人员的合作计划,旨在加深Meta对如何负责任地开发和共享人工智能技术的理解——尤其关注LLM。

Meta还发起了人工智能联盟(AI Alliance),这是一个由人工智能行业领先组织组成的团体,致力于在一个开放的社区内加速人工智能领域负责任的创新。

Meta的人工智能工作建立在开放科学和交叉合作的理念之上。开放的生态系统为人工智能开发带来了透明度、监督和信任,并带来了每个人都能从中受益的创新,这些创新都是以安全和责任为首要考虑的。



Meta AI基础设施的未来





这两个人工智能训练集群设计是Meta未来人工智能更大路线图的一部分。

到2024年底,Meta的目标是继续扩大Meta的基础设施建设,其中将包括35万个H100,未来会扩充到60万个H100 GPU的等效算力。

展望未来,Meta认识到,昨天或今天的工作可能无法满足明天的需求。

因此,Meta会不断评估和改进基础设施的各个方面,从物理层、虚拟层到软件层,以及未来出现的新维度。

Meta的目标是创建灵活可靠的系统,以支持快速发展的新模式和研究。

关注下面公众号
和我一起探索港股市场的所有秘密
👇🏻

美股研究社 美股研究社,一个专注研究美股的平台,专业的美股投资人都在这.想了解美国股市行情、美股开户、美股资讯、美股公司;
评论 (0)
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 211浏览
  •       知识产权保护对工程师的双向影响      正向的激励,保护了工程师的创新成果与权益,给企业带来了知识产权方面的收益,企业的创新和发明大都是工程师的劳动成果,他们的职务发明应当受到奖励和保护,是企业发展的重要源泉。专利同时也成了工程师职称评定的指标之一,专利体现了工程师的创新能力,在求职、竞聘技术岗位或参与重大项目时,专利证书能显著增强个人竞争力。专利将工程师的创意转化为受法律保护的“无形资产”,避免技术成果被他人抄袭或无偿使
    广州铁金刚 2025-03-25 11:48 181浏览
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 125浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 207浏览
  • 家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗?#70年代结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。#80年代随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这“新三件”,成为了人们对生活的新诉求。#90年代彩电、冰箱、全自动洗衣机开始大量进入普通家庭,快速全面普及,90年代末,家电产品实现了从奢侈品到必需品的转变。#00年代至今00年代,随着人们追求高品质生活的愿望,常用的电视机、洗衣机等已经远
    启英AI平台 2025-03-25 14:12 90浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 204浏览
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 117浏览
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 172浏览
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 160浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 171浏览
  • 文/陈昊编辑/cc孙聪颖‍2025 年,作为中国实施制造强国战略第一个十年计划的关键里程碑,被赋予了极为重大的意义。两会政府工作报告清晰且坚定地指出,要全力加速新质生产力的发展进程,推动传统产业全方位向高端化、智能化与绿色化转型。基于此,有代表敏锐提议,中国制造应从前沿技术的应用切入,逐步拓展至产业生态的构建,最终延伸到提升用户体验的维度,打出独树一帜、具有鲜明特色的发展牌。正是在这样至关重要的时代背景之下,于 AWE 2025(中国家电及消费电子博览会)这一备受瞩目的舞台上,高端厨房的中国方案
    华尔街科技眼 2025-03-25 16:10 87浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 156浏览
  • 在智能终端设备开发中,语音芯片与功放电路的配合直接影响音质表现。广州唯创电子的WTN6、WT588F等系列芯片虽功能强大,但若硬件设计不当,可能导致输出声音模糊、杂音明显。本文将以WTN6与WT588F系列为例,解析音质劣化的常见原因及解决方法,帮助开发者实现清晰纯净的语音输出。一、声音不清晰的典型表现与核心原因当语音芯片输出的音频信号存在以下问题时,需针对性排查:背景杂音:持续的“沙沙”声或高频啸叫,通常由信号干扰或滤波不足导致。语音失真:声音断断续续或含混不清,可能与信号幅度不匹配或功放参数
    广州唯创电子 2025-03-25 09:32 112浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 149浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦