英伟达Blackwell平台网络配置详解

智能计算芯世界 2024-04-17 07:41 1260浏览 0评论 0点赞

GaN电机驱动设计“避坑”指南 边缘AI开发的奥秘，一场直播就能搞懂！

本文来自“英伟达Blachwell平台网络配置详解”。GTC大会英伟达展示了全新的 Blackwell 平台系列产品，包括 HGX B100 服务器、NVLINK Switch、GB200Superchip Computer Node、Quantum X800 交换机和 CX8 网卡（InfiniBand 方案）、ETH Spectrum X800 交换机和 BF3 网卡（以太网方案）。

下载链接：

英伟达Blachwell平台网络配置详解

Claude 3大模型发布，人工智能发展持续演绎

AIGC（GPT）赋能通信行业应用白皮书

智能运维AIOps能力成熟模型（通用能力）

OpenAI公布模型Voice Engine，AI安全问题再受关注

如何实现AGI：大模型现状及发展路径展望

深度报告：量子信息：下一场信息革命

Suno发布V3版本：Suno发布V3版本，音乐ChatGPT时刻来临

算力网络架构和技术体系白皮书

AI如何赋能职场人：大模型落地企业方法论

大模型推荐技术及展望（2023）

《大模型时代：智能化技术合集》

人工智能系列专题报告：CoWoS技术引领先进封装，国内OSAT有望受益

人形机器人从0到1，国产化&软件赋能带来行业变革

2024年中国传感器行业现状及发展趋势研究报告

从存力到封力：CoWoS研究框架

2023年封装基板行业研究

香山：开源高性能RISC-V处理器

AI算力研究：英伟达B200再创算力奇迹，液冷、光模块持续革新

GPU深度报告：英伟达GB200 NVL72全互联技术，铜缆方案或将成为未来趋势？

1. Blackwell 平台网络配置分析

从网络配置的角度，英伟达提供了第五代 NVLINK、第六代 PCIE、单端口800Gbit/s 的 IB 和以太网网卡、1.6T 光模块需求。从目前英伟达公布的产品介绍看，这些升级后的网络能力可能不会第一时间全部配置在最新的 DGX B200 服务器上，而是在后续的产品中逐步升级。从英伟达公布的产品说明材料看，DGX B200 服务器配置 8 颗 NVIDIA B200 Tensor Core GPUs，4 个 800G OSPF 光模块，最大功耗为 14.3kW。

2 DGX GB200: NVLink domain 提升至 576 GPUs

采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。每个液冷机架配备 36 个 NVIDIA GB200 Grace Blackwell 超级芯片（36 个 NVIDIA Grace CPU 和 72 个 Blackwell GPU），与 NVIDIA NVLink 连接为一体。多个机架与 NVIDIA Quantum InfiniBand 连接，可扩展到数万个 GB200 超级芯片。

GB200 可以在单机柜内搭建包含 36 个或者 72 个 GPU 的 NVLink domain。一个机柜内包含 18 个计算节点和 9 台 L1 NVLink Switch。基于第五代 NVLink 技术，每个 NVLink 交换机可以提供 144 个 100GB NVLink 端口。通过机柜内的 9 个 L1NVLink Switch 可以合计提供 1296 个 100GB NVLink 端口，机柜内的每个Blackwell GPUs 可以获得 18 个端口，合计 1.8T 的 NVLink 带宽。

GB200 NVL72 使用了一个定制化的 Copper cable cartridge 实现机柜内 9 个L1 NV Switch 和 18 个计算节点的 NVLink 连接。英伟达介绍 NVIDIA GB200 NVL72可以在一个 NVLink domain 内连接 576 个 GPU。英伟达当前公布的 GB200 NVL72 配置了 72 个 CX7 网口（OSFP 400Gb/s InfiniBand），并没有使用最新的 CX8 网卡。

3 全新 IB 交换机，双层胖树支持万卡集群

NVIDIA Quantum-X800 Q3400-RA 是一台 4U 的 IB 交换机，对比上一代Quantum-9700 交换机设备尺寸提升了一倍。Quantum-X800 也是英伟达第一款使用200Gb/s-per-lane SerDes 方案的交换机设备，通过 72 个 OSPF 1.6T 光模块提供144 个 800G 端口。英伟达指出，基于 Quantum-X800 的高性能，两层胖树网路拓扑就可以连接 10386 个网络接口卡。

GTC 大会上，英伟达推出的 Spectrum-X800 SN5600 是一台 51.2T 端口容量的以太网交换机，可以配置 64 个 OSPF 800G 光模块。

4 新平台依然需要 800G 和 400G 光模块

从 GTC 大会的介绍看，BLACKWELL 平台会带来第五代 NVLINK、第六代 PCIE、第八代 IB 网络应用。但是在当前早期交付的产品中依然会采用 800G 和 400G 光模块。其中 DGX B200 服务器配置通过 4 个 800G OSPF 光模块提供 8 个 400G 端口，这和DGX H100 服务器的配置相同。

我们认为 B200 GPU 和 800 光模块的配置比例和 H100 GPU 保持一致。而 GB200NVL72 需要配置 72 个 OSPF 400G 光模块，以便通过 IB 网络实现万卡集群的连接。

5 新的IB网络带来1.6T光模块需求

NVIDIA Quantum-X800 Q3400-RA 和 CX8 NIC 则明确需要配置 1.6T 光模块。和上一代 IB 网络相比，主要的变化是 Quantum-X800 的端口能力提升至 115.2T，可以通过两层胖树拓扑实现 10386 个网络接口卡的连接，万卡规模 Blackwell GPU 集群使用 IB 网络组网的成本得到优化。我们认为这会弱化以太网方案的价格优势，提升 IB 网络方案的竞争力。

6 NVLink domain 容量扩展带来新增的铜缆连接需求

通过第五代 NVLINK 从 900GB 提升至 1800GB，单个 NVLINK domain 的 GPU 数量提升至 576 个。最大的变化是 L1 NV Switch 从服务器 PCB 板载芯片的形式调整为机柜内的 9 台交换机，连接能力提升至 72 个 GPU，需要使用铜缆实现机柜内的NVLINK 连接。

而如何实现 576 个 GPU 连接，目前英伟达还没有给出具体的连接方案，但是鉴于目前最新的 IB 交换机能力，我们认为连接 576 个 GPU 需要 L2 NV Switch。最终的方案使用铜缆还是光模块，核心是铜缆的连接距离是否可以满足 8 个机柜的连接需求，低成本的铜缆连接方案会是优先选项。

下载链接：

机器人专题研究：产业发展概览（2024）

国产AI算力行业报告：浪潮汹涌，势不可挡（2024）

AI系列之HBM：AI硬件核心，需求爆发增长

2024中国“百模大战”竞争格局分析报告(2024）

2024年中国虚拟现实（VR）行业研究报告

AI算力研究：英伟达B200再创算力奇迹，液冷、光模块持续革新

英伟达官宣新一代Blackwell架构，华为算力GPU需求破百万片

《人工智能技术行业应用图谱合集》

GPU深度报告：英伟达GB200 NVL72全互联技术，铜缆方案或将成为未来趋势？

机器人专题研究：产业发展概览（2024）

工业大模型应用报告v2.6（2024）

《海外垂直类AI报告专题（合集）》

复盘与展望：国产大模型的进击（2024）

英伟达发布新一代GPU架构，NVLink连接技术迭代升级

大模型语言模型：从理论到实践

技术展望2024：AI拐点，重塑人类潜力

网络大模型十大问题白皮书（2024）

大视研究：中国人工智能（AI）2024各行业应用研究报告

软硬件融合：从DPU到超异构计算

《大模型技术能力测评合集》

1、大模型时代，智算网络性能评测挑战

2、AIGC通用大模型产品测评篇（2023）

3、人工智能大模型工业应用准确性测评

4、甲子星空坐标系：AIGC通用大模型产品测评篇

5、AIGC通用大模型产品测评篇（2023）

6、2023年中国大模型行研能力评测

《大模型时代：智能化技术合集》

1、大模型时代，智算网络性能评测挑战

2、大模型时代：智能设计的机遇和挑战

大模型时代的AI十大趋势观察

《智算系列技术合集》

1、新型智算中心算力池化技术白皮书 2、智算中心网络架构白皮书 3、面向AI大模型的智算中心网络演进白皮书 4、智算赋能算网新应用白皮书

14份半导体“AI的iPhone时刻”深度系列报告合集

12份走进“芯”时代系列深度报告合集

《70+篇半导体行业“研究框架”合集》

《42份智能网卡和DPU合集》

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1677篇粉丝：208人

关注  私信

英伟达Blackwell平台网络配置详解

最近文章

热门文章

推荐

最新资讯