从“万卡集群”到“十万卡集群”，需要怎么的高速互连技术？

原创 TechSugar 2025-03-26 08:02 63浏览 0评论 0点赞

玄铁处理器集智能、安全、端云一体芯片架构 示波器里的故事，分享赢好礼！

随着生成式人工智能功能的日益强大，使得模型训练需求呈现爆发式增长。在这一背景下，任何单一的图形处理器（GPU）、异构处理器（XPU）或其他人工智能加速器，都已难以满足人工智能工作负载的庞大计算需求。

这种需求的激增，有力地推动了人工智能基础设施建设的持续扩张。大模型的Scaling Law（尺度定律）在未来一段时间内将保持其有效性。所谓Scaling Law，指的是数据量和参数规模增加，模型的性能也随之提升。可以预见，在不久的将来，成千上万，甚至数十万个人工智能加速器必须协同工作，并且它们的集群规模会随着训练参数的持续增加而不断扩大。

全球AI集群建设持续扩展：从“万卡集群”到“十万卡集群”

当前，“万卡集群”被业界视为这一轮大模型竞赛的“入场券”，而如今，“十万卡集群”正成为科技巨头们竞逐的新高地。

早在去年7月，马斯克便宣布旗下初创人工智能公司xAI在美国孟菲斯建立了一个超级集群，号称是“全球最强大的AI训练集群”。该集群由100,000个英伟达的液冷H100 GPU组成，并在单个RDMA结构（即远程直接数据存取结构）上运行。

紧接着，去年9月份的百度云智大会上，百度宣布对作为算力基础设施的百舸AI异构计算平台进行升级，新升级的百舸4.0也具备成熟的十万卡集群部署和管理能力。同一时期，阿里云在云栖大会上宣布其单网络集群已扩展至十万卡级别。腾讯则基于自研的高性能网络星脉，以及新一代算力集群HCC，同样能够支持10万卡GPU的超大计算规模。

人工智能基础设施的Scale Up和Scale Out扩展

AI算力集群通常由AI服务器、高速交换机构成。AI加速器是AI算力的最小单元，一台服务器通常会包含多个加速器。为便于管理，多台服务器组成一个机柜，并通过架顶交换机实现互连。

如前文所述，单芯片的算力和内存存在局限性，无法承载大模型的计算任务。因此，通过多种互连技术将多颗算力芯片互连在一起，以提供大规模的算力和内存，已成为目前人工智能集群建设的主要方法。GPU的互连主要分为业务互连、Scale Up网络互连和Scale Out互连，它们各自承担着不同的业务流。

图1：AI算力三种网络。

（图源：网络）

业务网络互连承载着诸如需要计算的输入数据、输出结果，以及在各类存储系统中的模型参数、checkpoint等。由于其需要进行极大范围的互连，并且要与云上的存储、业务接口等互通，所以多采用以太网技术，通常支持各类RDMA。

Scale Up网络互连通过将不同GPU互连，在节点内部进行扩展，即所谓的纵向扩展；而Scale Out网络互连则通常是将集群横向扩展到更多的GPU机柜，从而使AI集群的规模进一步扩大，即所谓的横向扩展。

新互连标准助力AI基础设施无缝扩展

目前，以谷歌、博通、亚马逊、AMD、微软、Meta、Marvell等为首的北美科技巨头企业，为了取得AI竞争优势，正纷纷自研AI芯片，并建立新的高速互连标准。

以AMD、博通为代表的AI芯片厂商正逐渐抢占更多市场份额。AMD提供GPU芯片，博通则主要凭借其ASIC定制化芯片服务能力。此外，OpenAI、微软等科技巨头也纷纷投身自研AI芯片领域。

在高速互连领域，对于Scale Up网络互连，2024年10月，由AMD、亚马逊AWS、Astera Labs、思科、谷歌、慧与（HPE）、英特尔、Meta和微软9家企业发起的Ultra Accelerator Link Consortium（UALink联盟）正式成立。该联盟旨在为AI Pod和集群中加速器与交换机之间的纵向扩展通信定义一种高速、低延迟的互联规范。

对于Scale Out网络互连。超以太网联盟（Ultra Ethernet，UEC）未来有望成为AI网络的主流方案。超以太网联盟由AMD、Arista、博通、思科等硬件厂商以及微软、新思科技和Meta等云厂商牵头成立，借助以太网的生态优势，致力于打造满足AI和HPC网络需求的新一代标准。

UALink技术和超以太网技术特点

UALink技术

UALink作为一种Scale Up架构，能够在数十到数百个专用人工智能加速器之间建立基于标准的、具有极高带宽连接的网络。它将网络从临时的网络配置转变为更加标准化的网络，从而能够构建具备更高基数系统的网络，并配备专用的超高速加速器链路交换机。

图2：UALink工作原理图。

（图源：HiPChips at MICRO-2024）

UALink构建了一个高速、低延迟的网络，该网络可连接一个计算节点内的多个加速器（如GPU）。这使得每个加速器都能够直接访问其他加速器的内存，从而让整个计算节点的功能就如同一块单一的、大型的GPU。从软件层面来看，这些相互连接的GPU组就像是一个单一的、大型的GPU块。

图3：UALink构建Scale Up网络。

（图源：nextplatform官网）

UALink具有以下技术特点：

高带宽：UALink每条通道的带宽高达200Gbps，可实现加速器之间的高效数据传输。
轻量级协议：该协议设计为轻量级，可减少开销并确保高效通信。
高效性：亚微秒级的延迟提升了推理性能，并且能够在不分割工作负载的情况下实现对八个以上GPU的扩展。
开放标准：UALink是一项开放的行业标准，有助于促进互操作性并减少对单一供应商的依赖。
内存共享：其具备特定的内存共享功能，使加速器能够高效访问共享内存资源。支持在数百个GPU之间进行加载、存储和原子操作，最大限度地减少端到端延迟并降低功耗。
同步特性：UALink包含同步特性，以确保多个加速器之间的一致性和高效运行。、
与UEC互补：能与UEC良好协作，以实现更广泛的可扩展性。

超以太网技术

超以太网系统由包含节点和架构基础设施的集群组成。节点通过架构接口（网卡）连接到网络，这些架构接口可以承载多个逻辑架构端点（FEP）。网络被划分为多个平面，每个平面都包含通常通过交换机相互连接的架构端点。

图4：超以太网集群图。

（图源：新思科技）

这些集群可以在两种主要模式下工作，以处理不同的任务。

并行作业模式：系统运行任务直至完成，并允许多个节点同时进行通信。这对于需要大量并行处理的高性能计算任务来说非常理想。
客户端/服务器模式：该系统是为存储任务而设置的。在这种模式下，服务器持续处理来自多个客户端的请求，通信发生在特定的节点之间。这种模式非常适用于对于可靠且一致的数据访问和管理。

超以太网技术具有以下技术特点：

物理层：与IEEE 802.3标准以太网兼容，可基于前向纠错（FEC）码字进行可选的性能监测。诸如不可纠正码字率（UCR）和平均分组错误间隔时间（MTBPE）等指标，可深入了解传输性能和可靠性。
数据链路层：引入链路级重传（LLR）协议，实现无损传输，且不依赖于优先级流量控制（PFC）。这确保了更快的错误恢复，消除了不必要的端到端重传，并减少了尾部延迟。
分组速率提升（PRI）：压缩以太网和IP报头以提高分组速率，解决因旧有功能和冗余协议字段导致的效率低下问题。
链路协商协议：通过协商功能扩展了链路层发现协议（LLDP），以检测并启用链路级重传（LLR）和分组速率提升（PRI）等受支持的功能。
传输层：旨在解决传统远程直接内存访问（RDMA）网络的局限性，具备选择性重传、乱序交付、分组喷射以及先进的拥塞控制机制等特点。它支持多种传输模式，包括可靠有序交付（ROD）、可靠无序交付（RUD）和不可靠无序交付（UUD）。
拥塞控制：实现诸如内聚流管理、加速速率调整、基于遥测的控制以及通过分组喷射进行自适应路由等功能，以最大限度地减少尾部延迟并提升网络性能。
安全性：在传输层融入基于作业的安全性，利用互联网安全协议（IPSec）和数据包保护协议（PSP）功能，最大限度地减少加密开销并支持硬件卸载。

新思科技业界首款超以太网和UALink IP解决方案

随着超大规模数据中心基础设施的加速发展，必须扩展到数十万个具有高效快速连接的加速器，才能够支持处理大型语言模型中的数万亿个参数。在这样的背景下，新思科技推出的业界首款超以太网IP和UALink IP解决方案犹如一场及时雨，满足业界对高带宽、低延迟互连技术的迫切需求。

新思科技的UALink IP解决方案的领先性能：

垂直扩展计算结构的IP解决方案：新思科技UALink IP解决方案由PHY、控制器和验证IP组成，助力开发者加快开发，可支持多达1024个AI加速器的系统的上市时间；
高效、高速的数据传输：低功耗、高带宽的新思科技UALink PHY IP专为数据密集型AI工作负载而设计，每通道可提供200Gbps的传输速度；
具有内存共享功能的延迟优化：新思科技UALink控制器IP通过从加速器到加速器的共享内存访问，帮助缓解AI硬件基础设施的关键瓶颈；
内置协议检查：新思科技UALink验证IP与新思科技硬件加速验证解决方案相结合，为AI硬件提供快速可靠的验证。

值得一提的是，2025年1月，新思科技、苹果和阿里巴巴还加入了UALink联盟董事会，共同推进下一代AI集群互连技术的发展。

而新思科技超以太网IP解决方案则具有以下领先性能：

可扩展后端网络的IP解决方案：新思科技超以太网IP解决方案由PHY、MAC和PCS控制器以及验证IP组成，为开发者开发可在单个网络中支持多达一百万个端点的系统提供了一条低风险途径；
全球领先的224G以太网PHY IP：经过硅验证的新思科技224G以太网PHY IP支持超以太网协议，并已在ECOC、OFC和DesignCon等多个行业展览上展示其广泛的互操作性；
获得专利的纠错实现：新思科技超以太网MAC和PCS控制器IP提供高达1.6 Tbps的带宽和超低延迟，可实现AI工作负载所需的实时处理；
无缝集成：MAC和PCS IP支持与超以太网堆栈更高层的接口，为交换机、AI加速器和智能NIC提供完整的芯片实现；
加速验证和确认：新思科技超以太网验证IP有助于确保协议符合快速发展的行业标准，从而更快、更高效地验证AI和HPC系统。