揭秘:Meta的AI大模型基础设施!

原创 SSDFans 2024-10-25 08:45


点击蓝字
关注我们



作为Meta对未来AI的重大投资,我们宣布了两个2.4万卡GPU集群。我们正在分享有关硬件、网络、存储、设计、性能和软件的详细信息,以帮助各种AI工作负载提取高吞吐量和可靠性。这种集群设计被用于Llama3的训练。


我们坚定地致力于开放计算和开源。在Grand TetonOpenRackPyTorch的基础上构建了这些集群,并继续推动整个行业的开放式创新。


这一宣布是我们基础设施路线图的一步。到2024年底,我们的目标是继续扩大基础设施建设,将包括作为产品组合部分350,000NVIDIA H100 GPU,具有相当于近600,000H100的计算能力。


引领AI发展意味着引领硬件基础设施的投资。硬件基础设施在AI未来扮演着重要的角色。今天,我们在Meta上分享两个版本的24,576 GPU数据中心规模集群的细节。这些集群支持我们当前和下一代AI模型,包括Llama 3Llama 2的继承者,公开发布的LLM,以及GenAI和其他领域的AI研究和开发。


Meta的大规模AI集群


Meta的长期愿景是建立开放和负责任的AGIgeneral intelligence,以便每个人都可以广泛使用,并从中受益。在我们努力实现AGI的同时,我们也在努力扩展集群,以实现这一目标。我们在AGI方面取得的进展创造了新产品,为我们的应用程序家族创造了新的AI功能,以及新的以AI为中心的计算设备。


虽然我们在构建AI基础设施方面有着悠久的历史,但我们在2022年首次分享了我们的AI研究超级集群( AI Research SuperCluster,简称RSC)的细节,该集群拥有16,000NVIDIA A100 GPURSC通过帮助我们建立第一代先进的AI模型,加速了开放AI研究。它在LlamaLlama 2的开发中发挥了重要作用,并将继续发挥重要作用,以及用于计算机视觉、自然语言处理、语音识别、图像生成甚至编码等应用的先进AI模型。



揭开面纱


我们新的AI集群建立在RSC的成功和经验教训之上。我们专注于构建端到端的人工智能系统,主要强调研究人员和开发人员的经验和生产力。这些集群中的高性能网络结构的效率,一些关键的存储决策,结合每个集群中的24,576NVIDIA Tensor Core H100 GPU,允许两个集群版本支持比RSC支持更大更复杂的模型,并为GenAI产品开发和AI研究的进步铺平道路。


网络


Meta,我们每天处理数以万亿计的AI模型。大规模交付这些服务需要高度先进和灵活的基础设施。定制设计我们自己的硬件、软件和网络结构,使我们能够优化AI研究人员的端到端体验,同时确保我们的数据中心高效运行。


考虑到这一点,我们基于带有Wedge400Minipack2 OCP机架交换机的Arista 7800构建了一个基于融合以太网(RoCE)网络结构解决方案的远程直接内存访问(RDMA)集群。另一个集群采用NVIDIA Quantum2 InfiniBand结构。这两种解决方案都将400 Gbps的端点互连起来。有了这两个,我们能够评估这些不同类型的互连在大规模训练中的适用性和可扩展性,为我们提供更多的见解,这将有助于我们在未来如何设计和构建规模更大的集群。通过仔细设计网络、软件和模型架构,我们已经成功地将RoCEInfiniBand集群用于大型GenAI工作负载(包括在RoCE集群上正在进行的Llama 3培训),没有任何网络瓶颈。


计算


这两个集群都是使用Grand Teton构建的,这是我们内部设计的开放GPU硬件平台,我们已经为开放计算项目(OCP)做出了贡献。Grand Teton基于多代AI系统,将电源、控制、计算和结构接口集成到单个机箱中,以获得更好的整体性能、信号完整性和热性能。它以简化的设计提供了快速的可扩展性和灵活性,使其能够快速部署到数据中心中,并且易于维护和扩展。结合其他内部创新,如我们的 Open Rack电源和Rack构,Grand Teton允许我们以一种专门为Meta当前和未来应用程序构建的方式构建新的集群。


2015年的Big Sur平台开始,我们已经公开设计了我们的GPU硬件平台。


存储


存储在AI训练中扮演着重要的角色,但却是最少被提及的方面之一。随着时间的推移,GenAI训练工作变得越来越多,需要大量的图像、视频和文本数据,因此对数据存储的需求迅速增长。然而,将所有数据存储放入高性能且节能的需求并没有消失,这使得问题变得更加有趣。


我们的存储部署通过本地的Linux Filesystem in Userspace (FUSE) API解决了AI集群的数据和检查点需求,该APIMeta的“构造”分布式存储解决方案版本支持,该解决方案针对Flash进行了优化。该解决方案使数千个GPU能够以同步方式保存和加载检查点(对任何存储解决方案来说都是一个挑战),同时还提供数据加载所需的灵活且高吞吐量的exabyte级存储。


我们还与Hammerspace合作,共同开发并行网络文件系统(NFS)部署,以满足该AI集群的开发人员经验要求。Hammerspace的优点之一是,工程师可以使用数千个GPU对作业进行交互式调试,因为环境中的所有节点都可以立即访问代码更改。当组合在一起时,我们的构造分布式存储解决方案和Hammerspace的组合可以在不影响规模的情况下实现快速迭代速度。


GenAI集群中的存储部署,包括构造和hammerspace支持,都基于YV3 Sierra Point服务器平台,并升级了最新的高容量E1.S SSD。除了更高的SSD容量之外,还定制了每个机架的服务器,以实现每个服务器的吞吐量、机架数量和功耗之间的适当平衡。利用OCP服务器作为乐高积木,我们的存储层能够灵活地扩展到该集群以及未来更大的AI集群需求,同时对日常基础设施维护操作具有容错能力。


性能


我们在构建大规模AI集群时的原则之一是最大化性能和易用性,而不牺牲其中一个。这是创建一流AI模型的重要原则。


当我们不断挑战AI系统的极限时,我们测试自己扩展设计能力的最佳方式就是简单地构建一个系统,对其进行优化,并进行实际测试(虽然模拟器可以提供帮助,但它们也只能做到这一点)。在这个设计过程中,我们比较了小型集群和大型集群的性能,以了解瓶颈在哪里。下面图表显示了AllGather的总体性能(按0-100的标准带宽表示)。


与优化后的小集群性能相比,我们在大型集群上的开箱性能最初很差,而且不一致。为了解决这个问题,我们对内部作业调度器在网络拓扑感知的情况下调度作业的方式进行了一些更改——这带来了延迟方面的好处,并最大限度地减少了流向网络上层的流量。我们还结合NVIDIA集体通信库(NCCL)的变化优化了网络路由策略,以实现最佳的网络利用率。这有助于推动大型集群实现与小型集群一样的出色性能。



除了针对内部基础设施的软件变更之外,我们还与编写训练框架和模型的团队密切合作,以适应不断发展的基础设施。例如,NVIDIA H100 GPU开启了利用8位浮点(FP8)等新数据类型进行训练的可能性。充分利用更大的集群需要在额外的并行化技术和新的存储解决方案上进行投资,从而提供在数千个队列中高度优化检查点以在数百毫秒内运行的机会。


我们也认识到可调试性是大规模训练中的主要挑战之一。在大规模的情况下,识别一个阻碍整个训练工作的GPU变得非常困难。我们正在构建诸如设计调试或分布式集体记录器之类的工具,以公开分布式训练的细节,用更快更容易的方式识别出问题。


最后,我们将继续发展PyTorch,这是为AI工作负载提供动力的基础AI框架,使其为数万甚至数百,数千个GPU训练做好准备。我们已经确定了进程组初始化的多个瓶颈,并将启动时间从有时几小时减少到几分钟。


致力于开放AI创新


Meta将继续致力于AI软硬件的开放式创新。我们相信,开源硬件和软件将永远是帮助行业大规模解决问题的宝贵工具。


今天,我们作为OCP的创始成员继续支持开放硬件创新,在那里我们为OCP社区提供Grand Teton和开放机架等设计。我们还将继续成为PyTorch的最大和主要贡献者,PyTorch是推动行业发展的AI软件框架。


我们还将继续致力于AI研究领域的开放式创新。我们已经启动了开放创新AI研究社区,这是一个学术研究人员的合作项目,旨在加深我们对如何负责任地开发和分享AI技术的理解——特别是LLM


Meta来说,开放的AI方法并不新鲜。我们还启动了AI联盟,这是一个由AI行业的领先组织组成的团体,致力于在一个开放的社区内加速AI领域的创新。我们的AI工作建立在开放科学和交叉合作的理念之上。一个开放的生态系统为AI的发展带来了透明度、审查和信任,并让每个人都能从中受益。


Meta AI基础设施的未来


当我们展望未来时,我们认识到昨天或今天行之有效的方法可能不足以满足明天的需要。这就是为什么我们不断评估和改进基础设施的各个方面,从物理和虚拟层到软件层等等。我们的目标是创建灵活可靠的系统,以支持快速发展的新模型和研究。


原文链接:

https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/



高端微信群介绍

创业投资群


AI、IOT、芯片创始人、投资人、分析师、券商

闪存群


覆盖5000多位全球华人闪存、存储芯片精英

云计算群


全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群


讨论AI芯片和GPU、FPGA、CPU异构计算

5G群


物联网、5G芯片讨论

第三代半导体群

氮化镓、碳化硅等化合物半导体讨论

储芯片群

DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子群

MCU、电源、传感器等汽车电子讨论

光电器件群

光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群

存储和芯片产品报价、行情、渠道、供应链




< 长按识别二维码添加好友 >

加入上述群聊




长按并关注

带你走进万物存储、万物智能、

万物互联信息革命新时代

微信号:SSDFans




SSDFans AI+IOT+闪存,万物存储、万物智能、万物互联的闪存2.0时代即将到来,你,准备好了吗?
评论
  • 一、行业背景与需求痛点智能电子指纹锁作为智能家居的核心入口,近年来市场规模持续增长,用户对产品的功能性、安全性和设计紧凑性提出更高要求:极致空间利用率:锁体内部PCB空间有限,需高度集成化设计。语音交互需求:操作引导(如指纹识别状态、低电量提醒)、安全告警(防撬、试错报警)等语音反馈。智能化扩展能力:集成传感器以增强安全性(如温度监测、防撬检测)和用户体验。成本与可靠性平衡:在复杂环境下确保低功耗、高稳定性,同时控制硬件成本。WTV380-P(QFN32)语音芯片凭借4mm×4mm超小封装、多传
    广州唯创电子 2025-03-13 09:24 41浏览
  • 前言在快速迭代的科技浪潮中,汽车电子技术的飞速发展不仅重塑了行业的面貌,也对测试工具提出了更高的挑战与要求。作为汽车电子测试领域的先锋,TPT软件始终致力于为用户提供高效、精准、可靠的测试解决方案。新思科技出品的TPT软件迎来了又一次重大更新,最新版本TPT 2024.12将进一步满足汽车行业日益增长的测试需求,推动汽车电子技术的持续革新。基于当前汽车客户的实际需求与痛点,结合最新的技术趋势,对TPT软件进行了全面的优化与升级。从模型故障注入测试到服务器函数替代C代码函数,从更准确的需求链接到P
    北汇信息 2025-03-13 14:43 37浏览
  • 北京时间3月11日,国内领先的二手消费电子产品交易和服务平台万物新生(爱回收)集团(纽交所股票代码:RERE)发布2024财年第四季度和全年业绩报告。财报显示,2024年第四季度万物新生集团总收入48.5亿元,超出业绩指引,同比增长25.2%。单季non-GAAP经营利润1.3亿元(non-GAAP口径,即经调整口径,均不含员工股权激励费用、无形资产摊销及因收购产生的递延成本,下同),并汇报创历史新高的GAAP净利润7742万元,同比增长近27倍。总览全年,万物新生总收入同比增长25.9%达到1
    华尔街科技眼 2025-03-13 12:23 47浏览
  • DeepSeek自成立之初就散发着大胆创新的气息。明明核心开发团队只有一百多人,却能以惊人的效率实现许多大厂望尘莫及的技术成果,原因不仅在于资金或硬件,而是在于扁平架构携手塑造的蜂窝创新生态。创办人梁文锋多次强调,与其与大厂竞争一时的人才风潮,不如全力培养自家的优质员工,形成不可替代的内部生态。正因这样,他对DeepSeek内部人才体系有着一套别具一格的见解。他十分重视中式教育价值,因而DeepSeek团队几乎清一色都是中国式学霸。许多人来自北大清华,或者在各种数据比赛中多次获奖,可谓百里挑一。
    优思学院 2025-03-13 12:15 47浏览
  • 一、行业背景与用户需求随着健康消费升级,智能眼部按摩仪逐渐成为缓解眼疲劳、改善睡眠的热门产品。用户对这类设备的需求不再局限于基础按摩功能,而是追求更智能化、人性化的体验,例如:语音交互:实时反馈按摩模式、操作提示、安全提醒。环境感知:通过传感器检测佩戴状态、温度、压力等,提升安全性与舒适度。低功耗长续航:适应便携场景,延长设备使用时间。高性价比方案:在控制成本的同时实现功能多样化。针对这些需求,WTV380-8S语音芯片凭借其高性能、多传感器扩展能力及超高性价比,成为眼部按摩仪智能化升级的理想选
    广州唯创电子 2025-03-13 09:26 33浏览
  • 文/杜杰编辑/cc孙聪颖‍主打影像功能的小米15 Ultra手机,成为2025开年的第一款旗舰机型。从发布节奏上来看,小米历代Ultra机型,几乎都选择在开年发布,远远早于其他厂商秋季主力机型的发布时间。这毫无疑问会掀起“Ultra旗舰大战”,今年影像手机将再次被卷上新高度。无意臆断小米是否有意“领跑”一场“军备竞赛”,但各种复杂的情绪难以掩盖。岁岁年年机不同,但将2-3年内记忆中那些关于旗舰机的发布会拼凑起来,会发现,包括小米在内,旗舰机的革新点,除了摄影参数的不同,似乎没什么明显变化。贵为旗
    华尔街科技眼 2025-03-13 12:30 60浏览
  • 曾经听过一个“隐形经理”的故事:有家公司,新人进来后,会惊讶地发现老板几乎从不在办公室。可大家依旧各司其职,还能在关键时刻自发协作,把项目完成得滴水不漏。新员工起初以为老板是“放羊式”管理,结果去茶水间和老员工聊过才发现,这位看似“隐形”的管理者其实“无处不在”,他提前铺好了企业文化、制度和激励机制,让一切运行自如。我的观点很简单:管理者的最高境界就是——“无为而治”。也就是说,你的存在感不需要每天都凸显,但你的思路、愿景、机制早已渗透到组织血液里。为什么呢?因为真正高明的管理,不在于事必躬亲,
    优思学院 2025-03-12 18:24 81浏览
  • 在海洋监测领域,基于无人艇能够实现高效、实时、自动化的海洋数据采集,从而为海洋环境保护、资源开发等提供有力支持。其中,无人艇的控制算法训练往往需要大量高质量的数据支持。然而,海洋数据采集也面临数据噪声和误差、数据融合与协同和复杂海洋环境适应等诸多挑战,制约着无人艇技术的发展。针对这些挑战,我们探索并推出一套基于多传感器融合的海洋数据采集系统,能够高效地采集和处理海洋环境中的多维度数据,为无人艇的自主航行和控制算法训练提供高质量的数据支持。一、方案架构无人艇要在复杂海上环境中实现自主导航,尤其是完
    康谋 2025-03-13 09:53 44浏览
  • 在追求更快、更稳的无线通信路上,传统射频架构深陷带宽-功耗-成本的“不可能三角”:带宽每翻倍,系统复杂度与功耗增幅远超线性增长。传统方案通过“分立式功放+多级变频链路+JESD204B 接口”的组合试图平衡性能与成本,却难以满足实时性严苛的超大规模 MIMO 通信等场景需求。在此背景下,AXW49 射频开发板以“直采+异构”重构射频范式:基于 AMD Zynq UltraScale+™ RFSoC Gen3XCZU49DR 芯片的 16 通道 14 位 2.5GSPS ADC 与 16
    ALINX 2025-03-13 09:27 32浏览
  •        随着人工智能算力集群的爆发式增长,以及5.5G/6G通信技术的演进,网络数据传输速率的需求正以每年30%的速度递增。万兆以太网(10G Base-T)作为支撑下一代数据中心、高端交换机的核心组件,其性能直接决定了网络设备的稳定性与效率。然而,万兆网络变压器的技术门槛极高:回波损耗需低于-20dB(比千兆产品严格30%),耐压值需突破1500V(传统产品仅为1000V),且需在高频信号下抑制电磁干扰。全球仅有6家企业具备规模化量产能力,而美信科
    中科领创 2025-03-13 11:24 40浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦