面向未来的PCI-Express交换机推理服务器

原创 EETOP 2025-03-28 11:28 51浏览 0评论 0点赞

双天线智能切换+多协议并发传输方案详解 TOLG 技术采用超紧凑的海鸥翼式引脚设计

点击关注半导体创芯网，后台告知EETOP论坛用户名，奖励200信元

在数据中心系统的发展历程中，能被英伟达选为其人工智能系统的组件供应商，这无疑是至高无上的赞誉。

这也正是新兴互连芯片制造商阿斯特拉实验室（Astera Labs）感到颇为得意的原因。该公司正与博通（Broadcom）和美满电子（Marvell）等公司在 PCI-Express 交换机、PCI-Express 重定时器以及 CXL 内存控制器等领域展开竞争。英伟达认可其即将推出的使用Blackwell GPU 加速器的服务器节点，采用阿斯特拉实验室的 PCI-Express 6.0 交换机和重定时器，将 X86 GPU 与Blackwell GPU 相连，在某些情况下还会连接网络接口卡和存储设备。

MGX 是一套服务器参考设计，它构成了英伟达自身人工智能服务器的基本架构，原始设备制造商（OEM）和原始设计制造商（ODM）也会基于此进行复刻，以便分得一杯羹。

在上周举行的 2025 年 GPU 技术大会（GPU Technical Conference 2025）上，阿斯特拉实验室做了两件事。首先，该公司展示了其 “天蝎座”（Scorpio）P 系列 PCI-Express 6.0 结构交换机和 “白羊座”（Aries）PCI-Express 6.0 重定时器，与英伟达的 Hopper H100 和 H200 GPU，以及用于 HGX 配置的各种Blackwell B100 和 B200 GPU 之间的互操作性（大家熟悉的双 CPU 搭配八 GPU 的设计，如今Hopper 架构的被称为 HGX NVL8，Blackwell 架构的则叫 DGX NVL16）。其次，阿斯特拉实验室展示了一款由 ODM 服务器制造商纬创（Wistron）设计的推理服务器，该服务器基于Hopper GPU，并使用阿斯特拉的交换机和重定时器将各个组件连接在一起。

目前还完全不清楚英伟达自身在其系统中哪些地方使用了阿斯特拉的芯片，我们只是借这一消息来了解一下阿斯特拉所提供的产品。不过，英伟达硬件工程副总裁安德鲁・贝尔（Andrew Bell）确实在一份声明中表示，“天蝎座” 交换机已集成到 “基于Blackwell的 MGX 平台” 中，所以就是这样。基于数字信号处理器（DSP）的 “白羊座” 重定时器虽未被提及，但如果你需要扩展 PCI-Express 5.0 或 6.0 链路以拉开组件之间的距离，同样也需要这类设备。

从概念上讲，整个架构是这样的：

在上述图表的中心，结构可以是任何 PCI-Express 交换机，但阿斯特拉无疑更希望是自家的 “天蝎座” 交换机，它也展示了这一点。使用来自两个不同供应商的开关和重定时器可能会带来麻烦。

如你所见，你可以使用重定时器将 GPU 连接到网络或存储结构，以及另一个用于直接将 GPU 相互连接的 PCI-Express 结构，这与英伟达使用 NVLink 端口和 NVSwitch 交换机的方式非常相似。目前，对于 GPU 加速器而言，这种 PCI-Express 结构上不存在内存寻址功能，但这正是由 AMD、博通、思科系统（Cisco Systems）、谷歌（Google）、慧与（Hewlett Packard Enterprise）、英特尔（Intel）、Meta Platforms和微软（Microsoft）牵头开展的超高速加速器链路（UALink）项目的目标所在。

“天蝎座” P 系列交换机用于将 CPU 连接到 GPU、网络接口和存储设备，“天蝎座” 交换机还有另一个版本，即 X 系列，用于创建 GPU 网格，这与英伟达的 NVSwitch 的作用类似，显然其带宽要低得多。这款 X 系列芯片需要定制化的合作项目，不出所料，在 2025 年的 GPU 技术大会上，阿斯特拉绝对不会提及这款芯片。

P 系列和 X 系列交换机都向后兼容一直到 PCI-Express 1.0 的设备。

就 PCI-Express 6.0 而言，以下是阿斯特拉与英伟达共同测试的内容：

在这种情况下，是一条 PCI-Express 6.0 x16 链路，将 “白羊座” 重定时器连接到Blackwell GPU，以扩展 PCI-Express 链路的范围。机箱内的 “天蝎座” P 系列交换机连接到英特尔至强 5.0 处理器和英伟达 ConnectX-7 网络接口，速度降为 PCI-Express 5.0。美光科技（Micron Technology）的闪存驱动器使用一条运行在 PCI-Express 6.0 速度的单 x1 通道进行存储。“天蝎座” 交换机有 64 条 PCI-Express 6.0 信号通道，这种配置使用了其中的 49 条，其中 32 条以 PCI-Express 5.0 的半速运行。

“天蝎座” P 系列交换机于 2024 年 9 月开始提供样品，目前正在逐步扩大量产规模。

阿斯特拉与 ODM 合作伙伴纬创展示的机器，是英伟达 MGX H100/H200 NVL 推理服务器的一个具体实现。MGX 系列模块化机器于 2023 年 5 月推出，其理念是将 GPU 加速应用于不同类型的工作负载，并采用适合相应用途的外形规格。

从概念上看，MGX 推理服务器是这样的：

这是一个 4U 机架式机箱，后部有一个双插槽 X86 服务器作为系统主机，配备 PCI-Express 交换机，连接到两个BlueField 3数据处理单元（DPU，位于前方右侧）以及八个 H100 或 H200 PCI-Express 5.0 GPU（位于前方，占据了大部分空间）。没有 NVSwitch 内存互连，但每张 GPU 卡上都有 NVLink 内存端口，并且可以使用桥接器将两个或四个相邻的 GPU 连接成共享内存配置，以便共享内存并针对更大的内存进行计算。

这种 MGX 参考架构还有其他配置，例如配备一个BlueField 3 DPU 和四个 ConnectX-7 智能网卡，每两个 GPU 对应一个智能网卡。

以下是每个 “天蝎座” 交换机连接两个 GPU 和一个网卡的 MGX 推理系统原理图：

每对通过 NVLink 桥接器连接的 GPU，都有一个 ConnectX-7 网卡，用于与外部世界通信，并通过 “天蝎座” P 系列交换机进行数据传输。我们推测，这对 GPU 也可以通过 “天蝎座” 交换机以 PCI-Express 6.0 速度进行通信。如果 GPU 支持 PCI-Express 6.0，x16 通道的速度可达 256GB/秒；如果仅支持 PCI-Express 5.0，则速度只有 128GB/秒。

在主机 CPU 和 GPU 之间需要多少带宽，以及 NVLink 非统一内存访问（NUMA）的级别（NVL2 或 NVL4），取决于你所进行的人工智能类型。

这款 MGX 推理服务器设计的一个重要特点是它具有模块化特性。（因此 MGX 中的 “M” 代表 “Modular”，即模块化的 GPU，我们不确定 “X” 代表什么）

后部的主机计算和内存板可以独立于前部的 GPU / 网卡 / DPU 板进行升级。例如，如果你在 GPU 计算板中使用了 “天蝎座” P 系列 PCI-Express 6.0 交换机，那么目前可以在 PCI-Express 5.0 模式下运行，并连接到任何现有的 X86 或 Arm 服务器节点。当支持 PCI-Express 6.0 插槽的新处理器上市时，再更换为新的服务器卡。如果你目前拥有带有 PCI-Express 5.0 x16 插槽的较旧的Hopper GPU，现在也可以在这个 MGX 设计中使用，未来某个时候再更换为新的支持 PCI-Express 6.0 的Blackwell GPU。

以下是纬创实际的 “xWing” 推理服务器 GPU 系统板的样子：