Meta在2024年OCP全球峰会上展示了其最新的开放式AI硬件设计。这些创新包括新的AI平台、尖端的开放式机架设计以及先进的网络结构和组件。其目标是促进AI基础设施的协作和创新。
AI已经成为Meta为人们和企业提供体验的一部分。随着Meta开发和发布先进的AI模型,它不断增强其基础设施,以支持这些新兴的AI工作负载。Llama 3.1 405B是Meta最大的模型,是一个值得注意的例子。
这个密集的转换器有4050亿个参数,可以处理多达128,000个token的上下文窗口。训练这个模型需要在Meta的整个训练堆栈中进行大量优化,使用超过16,000个NVIDIA H100 GPU。在整个2023年,Meta迅速将其训练集群从1,000个GPU扩展到16,000个GPU,以支持AI工作负载。
目前,Meta在两个24000 GPU集群上训练模型,并预计AI训练的计算需求将持续增长。构建高效的AI集群需要的不仅仅是GPU;网络和带宽对性能至关重要。
Meta公布AI硬件进展
Meta推出了专为AI工作负载设计的高性能机架Catalina,专注于模块化和灵活性。Catalina支持最新的NVIDIA GB200 Grace Blackwell超级芯片,可处理高达140千瓦的功率。它的液冷模块化设计可以在遵守行业标准的前提下满足特定的AI工作负载。
Meta还扩展了Grand Teton平台,以支持AMD Instinct MI300X加速器。该平台支持一系列加速器设计,并提供显著的计算能力、内存和网络带宽,实现训练集群的有效扩展。Meta正在开发开放的、与供应商无关的网络后端,以增强AI集群的性能。
与现有的交换机相比,新的开放分解计划结构(Disaggregated Scheduled Fabric,简称DSF)具有几个优势,包括克服了规模、组件供应选项和功率密度方面的限制。Meta与微软的合作在推进开放式创新方面起到了关键作用。他们的联合项目,如交换机抽象接口(Switch Abstraction Interface,简称SAI)和开放加速器模块(Open Accelerator Module,简称OAM)标准,对OCP社区做出了重大贡献。
Meta致力于开源AI,相信它将使AI的好处和机会民主化。开放的软件框架和标准化模型对于推动创新、确保可移植性和促进AI开发的透明度至关重要。开放的AI硬件系统对于提供高性能、低成本和适应性强的AI基础设施至关重要。
原文链接:
https://www.devx.com/news/meta-unveils-cutting-edge-ai-hardware-at-ocp/
高端微信群介绍 | |
创业投资群 | AI、IOT、芯片创始人、投资人、分析师、券商 |
闪存群 | 覆盖5000多位全球华人闪存、存储芯片精英 |
云计算群 | 全闪存、软件定义存储SDS、超融合等公有云和私有云讨论 |
AI芯片群 | 讨论AI芯片和GPU、FPGA、CPU异构计算 |
5G群 | 物联网、5G芯片讨论 |
第三代半导体群 | 氮化镓、碳化硅等化合物半导体讨论 |
存储芯片群 | DRAM、NAND、3D XPoint等各类存储介质和主控讨论 |
汽车电子群 | MCU、电源、传感器等汽车电子讨论 |
光电器件群 | 光通信、激光器、ToF、AR、VCSEL等光电器件讨论 |
渠道群 | 存储和芯片产品报价、行情、渠道、供应链 |
< 长按识别二维码添加好友 >
加入上述群聊
带你走进万物存储、万物智能、
万物互联信息革命新时代