前几天马斯克高调披露的10万卡液冷H100超级算力中心备受关注,其中就是采用了英伟达Spectrum-X网络连接解决方案。
大规模算力中心建设,不光是掏钱买卡的事情,如何把千卡、万卡、十万卡规模的设备高效互联互通,才是难点。否则斥巨资建设算力中心,性能发挥不出来,就是选择当冤大头,跟买不到卡没有什么本质的区别。
性能提升四舍五入约等于成本降低。
Spectrum-X是全球第一款专为大规模AI算力集群提供的完整端到端以太网络方案。
传统以太网向来被认为是和AI有冲突的,因为网络设计最初是为了互联网服务,适应不了AI训练的高并发大带宽低时延需求,这也是为什么英伟达自创了封闭生态IB的原因,凭借极高的吞吐量和极低的延迟,基本垄断了高性能算力中心方案。
至于英伟达现在为什么又选择了以太网方案?首先并不意味着IB被放弃,反倒是IB依旧是大算力集群建设的首选方案。至于原因,有的说法是IB的三层网络架构已经很难支持万卡以上的算力集群,也有说法是说英伟达是为了提前抢占更加广阔的AI推理市场……
但总而言之,Spectrum-X虽然基于以太网,但并不是传统上的以太网。
Spectrum-X采用NVIDIA Spectrum-4以太网交换机和NVIDIA BlueField-3 DPU,实现了相比传统以太网架构1.7倍的整体AI性能和能效提升,为AI工作负载提供最佳性能。