从“万卡集群”到“十万卡集群”,需要怎么的高速互连技术?

原创 TechSugar 2025-03-26 08:02


随着生成式人工智能功能的日益强大,使得模型训练需求呈现爆发式增长。在这一背景下,任何单一的图形处理器(GPU)、异构处理器(XPU)或其他人工智能加速器,都已难以满足人工智能工作负载的庞大计算需求。


这种需求的激增,有力地推动了人工智能基础设施建设的持续扩张。大模型的Scaling Law(尺度定律)在未来一段时间内将保持其有效性。所谓Scaling Law,指的是数据量和参数规模增加,模型的性能也随之提升。可以预见,在不久的将来,成千上万,甚至数十万个人工智能加速器必须协同工作,并且它们的集群规模会随着训练参数的持续增加而不断扩大。


全球AI集群建设持续扩展:从“万卡集群”到“十万卡集群”


当前,“万卡集群”被业界视为这一轮大模型竞赛的“入场券”,而如今,“十万卡集群”正成为科技巨头们竞逐的新高地。


早在去年7月,马斯克便宣布旗下初创人工智能公司xAI在美国孟菲斯建立了一个超级集群,号称是“全球最强大的AI训练集群”。该集群由100,000个英伟达的液冷H100 GPU组成,并在单个RDMA结构(即远程直接数据存取结构)上运行。


紧接着,去年9月份的百度云智大会上,百度宣布对作为算力基础设施的百舸AI异构计算平台进行升级,新升级的百舸4.0也具备成熟的十万卡集群部署和管理能力。同一时期,阿里云在云栖大会上宣布其单网络集群已扩展至十万卡级别。腾讯则基于自研的高性能网络星脉,以及新一代算力集群HCC,同样能够支持10万卡GPU的超大计算规模。


人工智能基础设施的Scale Up和Scale Out扩展


AI算力集群通常由AI服务器、高速交换机构成。AI加速器是AI算力的最小单元,一台服务器通常会包含多个加速器。为便于管理,多台服务器组成一个机柜,并通过架顶交换机实现互连。


如前文所述,单芯片的算力和内存存在局限性,无法承载大模型的计算任务。因此,通过多种互连技术将多颗算力芯片互连在一起,以提供大规模的算力和内存,已成为目前人工智能集群建设的主要方法。GPU的互连主要分为业务互连、Scale Up网络互连和Scale Out互连,它们各自承担着不同的业务流。


图1:AI算力三种网络。

(图源:网络)


业务网络互连承载着诸如需要计算的输入数据、输出结果,以及在各类存储系统中的模型参数、checkpoint等。由于其需要进行极大范围的互连,并且要与云上的存储、业务接口等互通,所以多采用以太网技术,通常支持各类RDMA。


Scale Up网络互连通过将不同GPU互连,在节点内部进行扩展,即所谓的纵向扩展;而Scale Out网络互连则通常是将集群横向扩展到更多的GPU机柜,从而使AI集群的规模进一步扩大,即所谓的横向扩展。


新互连标准助力AI基础设施无缝扩展


目前,以谷歌、博通、亚马逊、AMD、微软、Meta、Marvell等为首的北美科技巨头企业,为了取得AI竞争优势,正纷纷自研AI芯片,并建立新的高速互连标准。


以AMD、博通为代表的AI芯片厂商正逐渐抢占更多市场份额。AMD提供GPU芯片,博通则主要凭借其ASIC定制化芯片服务能力。此外,OpenAI、微软等科技巨头也纷纷投身自研AI芯片领域。


在高速互连领域,对于Scale Up网络互连,2024年10月,由AMD、亚马逊AWS、Astera Labs、思科、谷歌、慧与(HPE)、英特尔、Meta和微软9家企业发起的Ultra Accelerator Link Consortium(UALink联盟)正式成立。该联盟旨在为AI Pod和集群中加速器与交换机之间的纵向扩展通信定义一种高速、低延迟的互联规范。


对于Scale Out网络互连。超以太网联盟(Ultra Ethernet,UEC)未来有望成为AI网络的主流方案。超以太网联盟由AMD、Arista、博通、思科等硬件厂商以及微软、新思科技和Meta等云厂商牵头成立,借助以太网的生态优势,致力于打造满足AI和HPC网络需求的新一代标准。


UALink技术和超以太网技术特点



UALink技术



UALink作为一种Scale Up架构,能够在数十到数百个专用人工智能加速器之间建立基于标准的、具有极高带宽连接的网络。它将网络从临时的网络配置转变为更加标准化的网络,从而能够构建具备更高基数系统的网络,并配备专用的超高速加速器链路交换机。


图2:UALink工作原理图。

(图源:HiPChips at MICRO-2024)


UALink构建了一个高速、低延迟的网络,该网络可连接一个计算节点内的多个加速器(如GPU)。这使得每个加速器都能够直接访问其他加速器的内存,从而让整个计算节点的功能就如同一块单一的、大型的GPU。从软件层面来看,这些相互连接的GPU组就像是一个单一的、大型的GPU块。


图3:UALink构建Scale Up网络。

(图源:nextplatform官网)


UALink具有以下技术特点:


  • 高带宽:UALink每条通道的带宽高达200Gbps,可实现加速器之间的高效数据传输。


  • 轻量级协议:该协议设计为轻量级,可减少开销并确保高效通信。


  • 高效性:亚微秒级的延迟提升了推理性能,并且能够在不分割工作负载的情况下实现对八个以上GPU的扩展。


  • 开放标准:UALink是一项开放的行业标准,有助于促进互操作性并减少对单一供应商的依赖。


  • 内存共享:其具备特定的内存共享功能,使加速器能够高效访问共享内存资源。支持在数百个GPU之间进行加载、存储和原子操作,最大限度地减少端到端延迟并降低功耗。


  • 同步特性:UALink包含同步特性,以确保多个加速器之间的一致性和高效运行。、


  • 与UEC互补:能与UEC良好协作,以实现更广泛的可扩展性。



超以太网技术



超以太网系统由包含节点和架构基础设施的集群组成。节点通过架构接口(网卡)连接到网络,这些架构接口可以承载多个逻辑架构端点(FEP)。网络被划分为多个平面,每个平面都包含通常通过交换机相互连接的架构端点。


图4:超以太网集群图。

(图源:新思科技)


这些集群可以在两种主要模式下工作,以处理不同的任务。


  • 并行作业模式:系统运行任务直至完成,并允许多个节点同时进行通信。这对于需要大量并行处理的高性能计算任务来说非常理想。


  • 客户端/服务器模式:该系统是为存储任务而设置的。在这种模式下,服务器持续处理来自多个客户端的请求,通信发生在特定的节点之间。这种模式非常适用于对于可靠且一致的数据访问和管理。


超以太网技术具有以下技术特点:


  • 物理层:与IEEE 802.3标准以太网兼容,可基于前向纠错(FEC)码字进行可选的性能监测。诸如不可纠正码字率(UCR)和平均分组错误间隔时间(MTBPE)等指标,可深入了解传输性能和可靠性。


  • 数据链路层:引入链路级重传(LLR)协议,实现无损传输,且不依赖于优先级流量控制(PFC)。这确保了更快的错误恢复,消除了不必要的端到端重传,并减少了尾部延迟。


  • 分组速率提升(PRI):压缩以太网和IP报头以提高分组速率,解决因旧有功能和冗余协议字段导致的效率低下问题。


  • 链路协商协议:通过协商功能扩展了链路层发现协议(LLDP),以检测并启用链路级重传(LLR)和分组速率提升(PRI)等受支持的功能。


  • 传输层:旨在解决传统远程直接内存访问(RDMA)网络的局限性,具备选择性重传、乱序交付、分组喷射以及先进的拥塞控制机制等特点。它支持多种传输模式,包括可靠有序交付(ROD)、可靠无序交付(RUD)和不可靠无序交付(UUD)。


  • 拥塞控制:实现诸如内聚流管理、加速速率调整、基于遥测的控制以及通过分组喷射进行自适应路由等功能,以最大限度地减少尾部延迟并提升网络性能。


  • 安全性:在传输层融入基于作业的安全性,利用互联网安全协议(IPSec)和数据包保护协议(PSP)功能,最大限度地减少加密开销并支持硬件卸载。


新思科技业界首款超以太网和UALink IP解决方案


随着超大规模数据中心基础设施的加速发展,必须扩展到数十万个具有高效快速连接的加速器,才能够支持处理大型语言模型中的数万亿个参数。在这样的背景下,新思科技推出的业界首款超以太网IP和UALink IP解决方案犹如一场及时雨,满足业界对高带宽、低延迟互连技术的迫切需求。


新思科技的UALink IP解决方案的领先性能:


  • 垂直扩展计算结构的IP解决方案:新思科技UALink IP解决方案由PHY、控制器和验证IP组成,助力开发者加快开发,可支持多达1024个AI加速器的系统的上市时间;


  • 高效、高速的数据传输:低功耗、高带宽的新思科技UALink PHY IP专为数据密集型AI工作负载而设计,每通道可提供200Gbps的传输速度;


  • 具有内存共享功能的延迟优化:新思科技UALink控制器IP通过从加速器到加速器的共享内存访问,帮助缓解AI硬件基础设施的关键瓶颈;


  • 内置协议检查:新思科技UALink验证IP与新思科技硬件加速验证解决方案相结合,为AI硬件提供快速可靠的验证。


值得一提的是,2025年1月,新思科技、苹果和阿里巴巴还加入了UALink联盟董事会,共同推进下一代AI集群互连技术的发展。


而新思科技超以太网IP解决方案则具有以下领先性能:


  • 可扩展后端网络的IP解决方案:新思科技超以太网IP解决方案由PHY、MAC和PCS控制器以及验证IP组成,为开发者开发可在单个网络中支持多达一百万个端点的系统提供了一条低风险途径;


  • 全球领先的224G以太网PHY IP:经过硅验证的新思科技224G以太网PHY IP支持超以太网协议,并已在ECOC、OFC和DesignCon等多个行业展览上展示其广泛的互操作性;


  • 获得专利的纠错实现:新思科技超以太网MAC和PCS控制器IP提供高达1.6 Tbps的带宽和超低延迟,可实现AI工作负载所需的实时处理;


  • 无缝集成:MAC和PCS IP支持与超以太网堆栈更高层的接口,为交换机、AI加速器和智能NIC提供完整的芯片实现;


  • 加速验证和确认:新思科技超以太网验证IP有助于确保协议符合快速发展的行业标准,从而更快、更高效地验证AI和HPC系统。



写在最后


随着AI产业的迅猛发展,AI算力、运力需求大幅提升,这对于网络互连技术也提出了全新的要求。人工智能集群网络需要从Scale Up和Scale Out两方面进行扩展,以建立基于标准的、具有高带宽和低延迟的连接网络。


新思科技最新的UALink和超以太网IP解决方案,再结合其PCIe 7.0、1.6T以太网、CXL、高带宽存储(HBM),以及通用芯片互连(UCIe)等互联IP产品,将进一步推动人工智能和高性能计算在性能、可扩展性、效率以及互操作性方面达到新的高度,为AI产业的持续繁荣注入强大动力。


END

TechSugar 做你身边值得信赖的科技新媒体
评论 (0)
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 137浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 144浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 118浏览
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 97浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 151浏览
  • 文/陈昊编辑/cc孙聪颖‍2025 年,作为中国实施制造强国战略第一个十年计划的关键里程碑,被赋予了极为重大的意义。两会政府工作报告清晰且坚定地指出,要全力加速新质生产力的发展进程,推动传统产业全方位向高端化、智能化与绿色化转型。基于此,有代表敏锐提议,中国制造应从前沿技术的应用切入,逐步拓展至产业生态的构建,最终延伸到提升用户体验的维度,打出独树一帜、具有鲜明特色的发展牌。正是在这样至关重要的时代背景之下,于 AWE 2025(中国家电及消费电子博览会)这一备受瞩目的舞台上,高端厨房的中国方案
    华尔街科技眼 2025-03-25 16:10 76浏览
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 98浏览
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 135浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 141浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 160浏览
  • 家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗?#70年代结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。#80年代随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这“新三件”,成为了人们对生活的新诉求。#90年代彩电、冰箱、全自动洗衣机开始大量进入普通家庭,快速全面普及,90年代末,家电产品实现了从奢侈品到必需品的转变。#00年代至今00年代,随着人们追求高品质生活的愿望,常用的电视机、洗衣机等已经远
    启英AI平台 2025-03-25 14:12 85浏览
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 192浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦