面向未来的PCI-Express交换机推理服务器

原创 EETOP 2025-03-28 11:28
点击关注半导体创芯网,后台告知EETOP论坛用户名,奖励200信元

在数据中心系统的发展历程中,能被英伟达选为其人工智能系统的组件供应商,这无疑是至高无上的赞誉。

这也正是新兴互连芯片制造商阿斯特拉实验室(Astera Labs)感到颇为得意的原因。该公司正与博通(Broadcom)和美满电子(Marvell)等公司在 PCI-Express 交换机、PCI-Express 重定时器以及 CXL 内存控制器等领域展开竞争。英伟达认可其即将推出的使用Blackwell GPU 加速器的服务器节点,采用阿斯特拉实验室的 PCI-Express 6.0 交换机和重定时器,将 X86 GPU 与Blackwell GPU 相连,在某些情况下还会连接网络接口卡和存储设备。

MGX 是一套服务器参考设计,它构成了英伟达自身人工智能服务器的基本架构,原始设备制造商(OEM)和原始设计制造商(ODM)也会基于此进行复刻,以便分得一杯羹。

在上周举行的 2025 年 GPU 技术大会(GPU Technical Conference 2025)上,阿斯特拉实验室做了两件事。首先,该公司展示了其 “天蝎座”(Scorpio)P 系列 PCI-Express 6.0 结构交换机和 “白羊座”(Aries)PCI-Express 6.0 重定时器,与英伟达的 Hopper H100 和 H200 GPU,以及用于 HGX 配置的各种Blackwell B100 和 B200 GPU 之间的互操作性(大家熟悉的双 CPU 搭配八 GPU 的设计,如今Hopper 架构的被称为 HGX NVL8,Blackwell 架构的则叫 DGX NVL16)。其次,阿斯特拉实验室展示了一款由 ODM 服务器制造商纬创(Wistron)设计的推理服务器,该服务器基于Hopper GPU,并使用阿斯特拉的交换机和重定时器将各个组件连接在一起。

目前还完全不清楚英伟达自身在其系统中哪些地方使用了阿斯特拉的芯片,我们只是借这一消息来了解一下阿斯特拉所提供的产品。不过,英伟达硬件工程副总裁安德鲁・贝尔(Andrew Bell)确实在一份声明中表示,“天蝎座” 交换机已集成到 “基于Blackwell的 MGX 平台” 中,所以就是这样。基于数字信号处理器(DSP)的 “白羊座” 重定时器虽未被提及,但如果你需要扩展 PCI-Express 5.0 或 6.0 链路以拉开组件之间的距离,同样也需要这类设备。

从概念上讲,整个架构是这样的:

在上述图表的中心,结构可以是任何 PCI-Express 交换机,但阿斯特拉无疑更希望是自家的 “天蝎座” 交换机,它也展示了这一点。使用来自两个不同供应商的开关和重定时器可能会带来麻烦。

如你所见,你可以使用重定时器将 GPU 连接到网络或存储结构,以及另一个用于直接将 GPU 相互连接的 PCI-Express 结构,这与英伟达使用 NVLink 端口和 NVSwitch 交换机的方式非常相似。目前,对于 GPU 加速器而言,这种 PCI-Express 结构上不存在内存寻址功能,但这正是由 AMD、博通、思科系统(Cisco Systems)、谷歌(Google)、慧与(Hewlett Packard Enterprise)、英特尔(Intel)、Meta Platforms和微软(Microsoft)牵头开展的超高速加速器链路(UALink)项目的目标所在。

“天蝎座” P 系列交换机用于将 CPU 连接到 GPU、网络接口和存储设备,“天蝎座” 交换机还有另一个版本,即 X 系列,用于创建 GPU 网格,这与英伟达的 NVSwitch 的作用类似,显然其带宽要低得多。这款 X 系列芯片需要定制化的合作项目,不出所料,在 2025 年的 GPU 技术大会上,阿斯特拉绝对不会提及这款芯片。

P 系列和 X 系列交换机都向后兼容一直到 PCI-Express 1.0 的设备。

就 PCI-Express 6.0 而言,以下是阿斯特拉与英伟达共同测试的内容:

在这种情况下,是一条 PCI-Express 6.0 x16 链路,将 “白羊座” 重定时器连接到Blackwell GPU,以扩展 PCI-Express 链路的范围。机箱内的 “天蝎座” P 系列交换机连接到英特尔至强 5.0 处理器和英伟达 ConnectX-7 网络接口,速度降为 PCI-Express 5.0。美光科技(Micron Technology)的闪存驱动器使用一条运行在 PCI-Express 6.0 速度的单 x1 通道进行存储。“天蝎座” 交换机有 64 条 PCI-Express 6.0 信号通道,这种配置使用了其中的 49 条,其中 32 条以 PCI-Express 5.0 的半速运行。

“天蝎座” P 系列交换机于 2024 年 9 月开始提供样品,目前正在逐步扩大量产规模。

阿斯特拉与 ODM 合作伙伴纬创展示的机器,是英伟达 MGX H100/H200 NVL 推理服务器的一个具体实现。MGX 系列模块化机器于 2023 年 5 月推出,其理念是将 GPU 加速应用于不同类型的工作负载,并采用适合相应用途的外形规格。

从概念上看,MGX 推理服务器是这样的:

这是一个 4U 机架式机箱,后部有一个双插槽 X86 服务器作为系统主机,配备 PCI-Express 交换机,连接到两个BlueField 3数据处理单元(DPU,位于前方右侧)以及八个 H100 或 H200 PCI-Express 5.0 GPU(位于前方,占据了大部分空间)。没有 NVSwitch 内存互连,但每张 GPU 卡上都有 NVLink 内存端口,并且可以使用桥接器将两个或四个相邻的 GPU 连接成共享内存配置,以便共享内存并针对更大的内存进行计算。

这种 MGX 参考架构还有其他配置,例如配备一个BlueField 3 DPU 和四个 ConnectX-7 智能网卡,每两个 GPU 对应一个智能网卡。

以下是每个 “天蝎座” 交换机连接两个 GPU 和一个网卡的 MGX 推理系统原理图:

每对通过 NVLink 桥接器连接的 GPU,都有一个 ConnectX-7 网卡,用于与外部世界通信,并通过 “天蝎座” P 系列交换机进行数据传输。我们推测,这对 GPU 也可以通过 “天蝎座” 交换机以 PCI-Express 6.0 速度进行通信。如果 GPU 支持 PCI-Express 6.0,x16 通道的速度可达 256GB/秒;如果仅支持 PCI-Express 5.0,则速度只有 128GB/秒。

在主机 CPU 和 GPU 之间需要多少带宽,以及 NVLink 非统一内存访问(NUMA)的级别(NVL2 或 NVL4),取决于你所进行的人工智能类型。

这款 MGX 推理服务器设计的一个重要特点是它具有模块化特性。(因此 MGX 中的 “M” 代表 “Modular”,即模块化的 GPU,我们不确定 “X” 代表什么)

后部的主机计算和内存板可以独立于前部的 GPU / 网卡 / DPU 板进行升级。例如,如果你在 GPU 计算板中使用了 “天蝎座” P 系列 PCI-Express 6.0 交换机,那么目前可以在 PCI-Express 5.0 模式下运行,并连接到任何现有的 X86 或 Arm 服务器节点。当支持 PCI-Express 6.0 插槽的新处理器上市时,再更换为新的服务器卡。如果你目前拥有带有 PCI-Express 5.0 x16 插槽的较旧的Hopper GPU,现在也可以在这个 MGX 设计中使用,未来某个时候再更换为新的支持 PCI-Express 6.0 的Blackwell GPU。

以下是纬创实际的 “xWing” 推理服务器 GPU 系统板的样子:

这种设计每个 “天蝎座” 交换机连接两个 GPU,并且在板的左侧有一个网卡插槽。

没有一款 MGX 推理服务器设计能够对拥有数万亿参数的生成式人工智能(GenAI)模型进行推理。但对于许多人工智能推理工作负载来说,它们的规模恰到好处。

原文:

https://www.nextplatform.com/2025/03/27/future-proofing-inference-servers-with-pci-express-switches/


创芯大讲堂数字芯片课程推荐

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  • Shinco音响拆解 一年一次的面包板社区的拆解活动拉开帷幕了。板友们开始大显身手了,拆解各种闲置的宝贝。把各自的设计原理和拆解的感悟一一向电子爱好者展示。产品使用了什么方案,用了什么芯片,能否有更优的方案等等。不仅让拆解的人员了解和深入探索在其中。还可以让网友们学习电子方面的相关知识。今天我也向各位拆解一个产品--- Shinco音响(如下图)。 当产品连接上电脑的耳机孔和USB孔时,它会发出“开机,音频输入模式”的语音播报,。告诉用户它已经进入音响外放模式。3.5mm耳机扣接收电脑音频信号。
    zhusx123 2025-03-30 15:42 77浏览
  • 在智能家居领域,无线门铃正朝着高集成度、低功耗、强抗干扰的方向发展。 WTN6040F 和 WT588F02B 两款语音芯片,凭借其 内置EV1527编解码协议 和 免MCU设计 的独特优势,为无线门铃开发提供了革命性解决方案。本文将深入解析这两款芯片的技术特性、应用场景及落地价值。一、无线门铃市场痛点与芯片方案优势1.1 行业核心痛点系统复杂:传统方案需MCU+射频模块+语音芯片组合,BOM成本高功耗瓶颈:待机电流
    广州唯创电子 2025-03-31 09:06 62浏览
  • 真空容器的材料选择取决于其应用场景(如科研、工业、医疗)、真空等级(低真空、高真空、超高真空)以及环境条件(温度、压力、化学腐蚀等)。以下是常见材料及其优缺点分析:1. 不锈钢(如304、316L)优点:耐腐蚀性强:316L含钼,耐酸碱和高温氧化,适合高真空和腐蚀性环境。高强度:机械性能稳定,可承受高压差和外部冲击。低放气率:经电解抛光或镀镍处理后,表面放气率极低,适合超高真空系统(如粒子加速器、半导体镀膜设备)。易加工:可焊接、铸造,适合复杂结构设计。缺点:重量大:大型容器运输和安装成本高。磁
    锦正茂科技 2025-03-29 10:52 47浏览
  • 文/杜杰编辑/cc孙聪颖‍3月11日,美国总统特朗普,将自费8万美元购买的特斯拉Model S,开进了白宫。特朗普此举,绝非偶然随性,而是有着鲜明的主观意图,处处彰显出一种刻意托举的姿态 。特朗普也毫不讳言,希望他的购买能推动特斯拉的发展。作为全球电动车鼻祖,特斯拉曾凭借创新理念与先进技术,开辟电动汽车新时代,引领行业发展潮流。然而当下,这家行业先驱正深陷困境,面临着前所未有的挑战。就连“钢铁侠”马斯克自己都在采访时表示“非常困难”,的确是需要美国总统伸手拉一把了。马斯克踏入白宫的那一刻,特斯拉
    华尔街科技眼 2025-03-28 20:44 173浏览
  • 一、真空容器的定义与工作原理真空容器是一种能够创造并保持一定真空度的密闭容器。其工作原理通常涉及抽气系统,该系统能够逐渐抽出容器内部的气体分子,从而降低容器内的气压,形成真空环境。在这个过程中,容器的体积并不会因抽气而改变,但容器内的压力会随着气体的抽出而逐渐降低。二、真空容器并非恒压系统真空容器并非一个恒压系统。恒压系统指的是在外部环境变化时,系统内部压力能够保持相对稳定。然而,在真空容器中,随着气体的不断抽出,内部压力会持续降低,直至达到所需的真空度。因此,真空容器内部的压力是变化的,而非恒
    锦正茂科技 2025-03-29 10:23 142浏览
  • 本文介绍OpenHarmony5.0 DevEco Studio开发工具安装与配置,鸿蒙北向开发入门必备!鸿蒙北向开发主要侧重于应用层的开发,如APP开发、用户界面设计等,更多地关注用户体验、应用性能优化、上层业务逻辑的实现,需要开发者具备基本的编程知识、对操作系统原理的简单理解,以及一定的UI设计感。由触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,支持开源鸿蒙OpenHarmony3.2至5.0系统,适合鸿蒙开发入门学习。下载与安装开发工具点下面链接下载:
    Industio_触觉智能 2025-03-28 18:16 186浏览
  • 3月27日,长虹中玖闪光超高剂量率电子射线放射治疗系统(e-Flash)临床试验项目在四川大学华西医院正式启动,标志着该项目正式进入临床试验阶段。这不仅是我国医学技术领域的一项重大突破,更是我国在高端医疗设备研发和应用方面的重要里程碑。e-Flash放射治疗系统适用于哪些病症,治疗周期为多久?会不会产生副作用?治疗费用高不高……随着超高剂量率电子射线放射治疗系统(e-Flash)正式进入临床试验阶段,社会各界对该项目的实施情况尤为关注。对此,中国工程院院士范国滨,以及四川大学华西医院、四川省肿瘤
    华尔街科技眼 2025-03-28 20:26 284浏览
  • 在智能语音交互设备开发中,系统响应速度直接影响用户体验。WT588F系列语音芯片凭借其灵活的架构设计,在响应效率方面表现出色。本文将深入解析该芯片从接收指令到音频输出的全过程,并揭示不同工作模式下的时间性能差异。一、核心处理流程与时序分解1.1 典型指令执行路径指令接收 → 协议解析 → 存储寻址 → 数据读取 → 数模转换 → 音频输出1.2 关键阶段时间分布(典型值)处理阶段PWM模式耗时DAC模式耗时外挂Flash模式耗时指令解析2-3ms2-3ms3-5ms存储寻址1ms1ms5-10m
    广州唯创电子 2025-03-31 09:26 96浏览
  • 真空容器内部并非wan全没有压强,而是压强极低,接近于零。真空状态下的压强与容器内外气体的分子数量、温度以及容器本身的性质有关。一、真空与压强的基本概念真空指的是一个空间内不存在物质或物质极少的状态,通常用于描述容器或系统中气体的稀薄程度。压强则是单位面积上所受正压力的大小,常用于描述气体、液体等流体对容器壁的作用力。二、真空状态下的压强特点在真空状态下,容器内部的气体分子数量极少,因此它们对容器壁的作用力也相应减小。这导致真空容器内部的压强远低于大气压强,甚至接近于零。然而,由于技术限制和物理
    锦正茂科技 2025-03-29 10:16 148浏览
  •        随着智能驾驶向L3级及以上迈进,系统对实时性的要求已逼近极限。例如,自动紧急制动(AEB)需在50毫秒内完成感知、决策到执行的全链路响应,多传感器数据同步误差需小于10微秒。然而,传统基于Linux-RT的方案在混合任务处理中存在天然缺陷——其最大中断延迟高达200微秒,且多任务并发时易引发优先级反转问题。据《2024年智能汽车电子架构白皮书》统计,超60%的车企因实时性不足被迫推迟舱驾一体化项目落地。为旌电子给出的破局之道,是采用R5F(实
    中科领创 2025-03-29 11:55 215浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦