Meta的AI硬件愿景:让计算架构更加开放

原创 汽车电子设计 2024-10-25 08:18
芝能智芯出品

在2024年开放计算项目(OCP)全球峰会上,Meta推出了其最新的开放式AI硬件设计,展示了推动AI计算架构开放化的坚定决心。

Meta不仅致力于技术进步,还希望通过开放的硬件设计,推动全球AI基础设施的发展,设立全新标准。

Meta通过一系列创新硬件来实现的,包括为AI工作负载量身打造的高性能计算平台、尖端的开放式机架设计,以及专门为优化AI模型性能而开发的网络架构,提升AI的计算能力,还会为整个行业提供开放、灵活的基础设施,促进更多的技术合作与创新。



Part 1

Meta的开放式AI硬件设计:
Llama 3.1的突破

Meta的Llama 3.1模型展现了其在AI模型规模和技术上的重大突破。

Llama 3.1作为一个拥有4050亿个参数、支持128k token上下文窗口的密集转换器模型,对硬件提出了前所未有的计算需求。

为满足如此庞大的计算需求,Meta部署了超过16,000个NVIDIA H100 GPU,这标志着Meta在AI集群训练中的资源调度达到了新的高度。

Meta在一年内迅速扩展训练集群的规模,从最初的1K GPU一路攀升至如今的16K GPU,标志着AI计算能力的飞跃。

相较于以前依赖128个NVIDIA A100 GPU的小规模AI任务,这种大规模集群扩展不仅提高了计算能力,还为未来的AI硬件发展奠定了坚实基础。

 网络架构的核心作用:高效无阻塞网络

在构建大型AI集群时,网络架构和带宽是决定计算效率的关键因素。

Meta采用了高性能计算(HPC)系统与高带宽网络相结合的方式,确保GPU和加速器之间的通信高速且稳定。未来几年,Meta预计每个加速器的注入带宽将达到每秒1TB,标准化的二分带宽也将与之匹配。

这一增长远超现有网络能力,预示着AI计算的飞速发展。Meta研发了多层次无阻塞网络结构,该结构在重负载下通过拥塞控制,确保网络的可预测性和稳定性。

无论面对多么复杂的AI任务,Meta的新网络架构都将为AI集群提供持续的高效性能。

 Catalina机架:AI基础设施的开放架构

Meta在开放计算项目中推出的Catalina机架,Catalina基于NVIDIA Blackwell平台设计,专为AI工作负载打造,具备模块化和灵活性的特点。

它还支持NVIDIA GB200 Grace Blackwell超级芯片,能够满足AI任务不断增长的计算需求。

Catalina解决了AI集群中GPU功耗不断增加的难题。其Orv3高功率机架(HPR)设计,能够支持高达140kW的功率需求,通过开放硬件设计,更多合作伙伴可以基于Catalina定制和部署AI解决方案。

● Grand Teton平台:支持多加速器的开放平台

Meta的Grand Teton平台自发布以来,成为AI基础设施的重要组成部分。

Grand Teton平台最初是为大规模推荐模型等内存带宽受限任务设计的,如今Meta进一步扩展了其支持范围,新增了对AMD Instinct MI300X加速器的支持。

AMD Instinct MI300X的加入,为Meta的AI任务带来了更高的计算能力与内存带宽支持。

通过高度集成的单片系统设计,新一代Grand Teton平台不仅显著提升了内存容量,还扩展了网络带宽,使其能够有效应对更大规模的AI模型训练与推理任务。



Part 2

AMD Instinct MI300X

AMD Instinct MI300X在AI硬件领域的表现尤为亮眼。作为全球首款集成式APU(加速处理单元),MI300X将CPU和GPU通过高级封装技术融合在同一芯片上。

这种异构架构能够极大地缩短数据在计算单元之间的传输延迟,并提升性能密度,尤其适用于大规模并行计算的AI推理工作负载。

MI300X配备了128GB的高带宽内存(HBM3),为复杂的深度学习模型提供了充裕的内存支持。

这一内存容量和带宽的大幅提升,有效解决了深度学习训练和推理过程中的内存瓶颈问题。


AI集群的规模扩展对网络架构提出了新的挑战。Meta推出了分解式调度结构(DSF),在应对大规模加速器协作中显示出了巨大优势。

通过开放式网络架构,Meta能够灵活应对供应链、扩展性和功率密度等问题。

DSF支持基于以太网的RoCE接口,能够连接多家供应商的加速器和网络端点,包括NVIDIA、Broadcom和AMD等。

通过这种开放式网络设计,Meta不仅提高了系统的灵活性,还为多供应商合作提供了更多机会,推动了AI基础设施的开放化发展。


Meta与微软的长期合作,为开放式AI硬件的创新提供了重要支持。

两家公司在交换机抽象接口(SAI)、OAM标准等多个关键项目上紧密合作,并联合开发了Mount Diablo分解式电源机架。通过这种跨公司合作,Meta与微软展示了开放创新的强大力量,共同推动了AI硬件的技术前沿。

Meta的AI硬件愿景不仅是技术的进步,更是对全球AI社区开放合作的承诺。通过共享先进的硬件设计和推动标准化,Meta希望促进全球开发者和企业的参与,进一步推动AI技术的普及化与发展。

未来,Meta将继续投资于开放式硬件,推动AI技术的进步,并为全世界带来更多AI的创新与机遇。


小结

2024年开放计算项目上展示其前沿的开放式AI硬件愿景,从高性能的Catalina机架到支持多加速器的Grand Teton平台,Meta通过一系列硬件创新与开放设计,推动了AI基础设施的发展。

汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论 (0)
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 44浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 302浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 336浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 58浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 538浏览
  •  一、‌核心降温原理‌1、‌液氮媒介作用‌液氮恒温器以液氮(沸点约77K/-196℃)为降温媒介,通过液氮蒸发吸收热量的特性实现快速降温。液氮在内部腔体蒸发时形成气-液界面,利用毛细管路将冷媒导入蒸发器,强化热交换效率。2、‌稳态气泡控温‌采用‌稳态气泡原理‌:调节锥形气塞与冷指间隙,控制气-液界面成核沸腾条件,使漏热稳定在设定值。通过控温仪调整加热功率,补偿漏热并维持温度平衡,实现80K-600K范围的快速变温。二、‌温度控制机制‌1、‌动态平衡调节‌控温仪内置模糊控制系统,通过温度
    锦正茂科技 2025-04-30 11:31 32浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 442浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 302浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 283浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 61浏览
  • 在全球制造业加速向数字化、智能化转型的浪潮中,健达智能作为固态照明市场的引领者和智能电子以及声学产品的创新先锋,健达智能敏锐捕捉到行业发展的新机遇与新挑战,传统制造模式已难以满足客户对品质追溯、定制化生产和全球化布局的需求。在此背景下, 健达智能科技股份有限公司(以下简称:健达智能)与盘古信息达成合作,正式启动IMS数字化智能制造工厂项目,标志着健达智能数字化转型升级迈入新阶段。此次项目旨在通过部署盘古信息IMS系统,助力健达实现生产全流程的智能化管控,打造照明行业数字化标杆。行业趋势与企业挑战
    盘古信息IMS 2025-04-30 10:13 34浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦