Broadcom的Hasan Siraj在讨论AI的网络需求时,强调了以太网在扩展AI集群中的核心作用,并指出其在故障恢复和成本效率方面相较于InfiniBand的优势。
网络是扩展大型AI集群的关键要素,而以太网是合适的技术选择。
在训练推荐模型时,Meta发现网络所花费的时间占比在18%到57%之间,这直接影响了集群的投资回报率(ROI)。
AI网络的独特之处在于其对极高带宽、RDMA流量(大量数据传输)、间歇性数据激增的需求,以及落后数据对作业完成时间的显著影响,加之训练作业通常运行时间较长。
来源:Bradcom
他突出了公司端点调度解决方案(Tomahawk 5)和交换机调度(Jericho3-AI)。Jericho3-AI在单一域中,对32,000个加速器每个以800Gbps的速度,提供了10%的作业完成时间性能提升。
来源:Broadcom
Broadcom的THOR2 AI优化网卡是一款支持大规模RDMA的400G高性能网卡,具有最长的100G Serdes覆盖范围,功耗仅为80W(比其他DPU低75%)。THOR2的功耗模型包括板卡、芯片组或IP。
以太网提供了比InfiniBand快30倍的故障恢复能力。一个4K集群每月会有15次故障(2%的年故障率)。
降低AI互连成本:如果不使用铜缆,可以使用线性可插拔光学器件(功耗降低33%),共封装光学器件提供了更低的功耗和成本,预计不久的将来大规模制造将推动其采用。
最大的集群——亚马逊拥有超过6万片的GPU,甲骨文拥有超过3万片,Meta拥有超过2万片等——都使用以太网。
Broadcom正在讨论的系统涉及数十万GPU或1M+的分布式超级计算机中的加速器。
Ultra Ethernet Consortium:与经典RDMA相比,Ultra Ethernet将提供乱序放置、选择性确认和重传、数据包级多路径、无需配置的拥塞控制。
以太网普遍部署,拥有开放标准,为AIfabrics提供了最高的RDMA性能,成本低于InfiniBand,提供了前后端的部署一致性,高可用性,并得到了大型生态系统的支持。
内容来源:AI Hardware Summit 2024
高端微信群介绍 | |
创业投资群 | AI、IOT、芯片创始人、投资人、分析师、券商 |
闪存群 | 覆盖5000多位全球华人闪存、存储芯片精英 |
云计算群 | 全闪存、软件定义存储SDS、超融合等公有云和私有云讨论 |
AI芯片群 | 讨论AI芯片和GPU、FPGA、CPU异构计算 |
5G群 | 物联网、5G芯片讨论 |
第三代半导体群 | 氮化镓、碳化硅等化合物半导体讨论 |
存储芯片群 | DRAM、NAND、3D XPoint等各类存储介质和主控讨论 |
汽车电子群 | MCU、电源、传感器等汽车电子讨论 |
光电器件群 | 光通信、激光器、ToF、AR、VCSEL等光电器件讨论 |
渠道群 | 存储和芯片产品报价、行情、渠道、供应链 |
< 长按识别二维码添加好友 >
加入上述群聊
带你走进万物存储、万物智能、
万物互联信息革命新时代