UltraEthernet和UALinkIP解决方案:开启数据中心互连新篇

原创 汽车电子设计 2024-12-21 07:59

芝能智芯出品


在 AI 与高性能计算(HPC)需求急剧攀升的背景下,数据中心互连技术的重要性愈发凸显。


新思科技(Synopsys)在AI计算领域再度发力,于美国加州当地时间12月11日发布了Ultra Ethernet和UALink IP解决方案。


此举旨在对标英伟达的InfiniBand与NVLink技术,提出了更为开放的AI加速器互联方案,得到了微软、Meta、AMD、英特尔等行业巨头的支持。


这两大方案的推出不仅标志着新一代高性能计算(HPC)和人工智能(AI)基础设施的崭新生态,还预示着开放协议逐渐取代封闭协议的行业趋势。


本文将深入分析Ultra Ethernet和UALink IP方案的创新意义及其对AI计算和互联技术的深远影响。




Part 1

Ultra Ethernet 和 
UALink IP 方案
的创新与趋势分析

● 什么是Ultra Ethernet和UALink IP?


Ultra Ethernet与UALink分别针对AI加速器集群的Scale Out(横向扩展)和Scale Up(纵向扩展)互联需求。


前者致力于通过以太网协议实现万级以上服务器间的高速连接,支持高达100万个端点,单端口带宽达1.6Tbps。后者则针对POD单元内的超节点连接,每个通道支持200Gbps,最多支持1024个AI加速器。


两者均采用开放标准,通过包含控制器、PHY和验证IP的整体解决方案提供高带宽、低延迟的性能。


 Ultra Ethernet IP 解决方案:支持横向扩展至 100 万个端点,带宽可达 1.6 Tbps,包含经过芯片验证的 224G 以太网 PHY。


其在传输层有显著改变,如引入 LLR(Link Level Retry)协议实现无损传输;物理层支持更高速率并可选支持物理层性能指标统计功能;网络层依然基于 IP 协议;软件 API 层提供 UEC 扩展的 Libfabrics 2.0。


这些创新使得它在大规模集群互连时能有效处理网络尾延迟问题,通过允许乱序数据包传输与低层智能重传机制结合,减少 AI 处理器停顿,提升资源利用率与效率。


 UALink IP 解决方案:专为数据密集型 AI 工作负载设计,每个通道均可支持到 200Gbps,可实现多达 1024 个 AI 加速器的 POD 系统内部连接。


它定义了创新的 I/O 架构,具备高性能内存语义访问原生支持,可实现显存共享、支持 Switch 组网模式以及超高带宽和超低时延能力,在性能和 GPU 互连规模上超越 Nvidia NVLink 技术,且在加速器、交换芯片、Retimer 等互连技术上保持中立。


与英伟达的 InfiniBand 和 NVLink 私有协议不同,Ultra Ethernet 和 UALink 属于开放标准协议。


这一特性吸引了微软、Meta、AMD、英特尔等众多重要企业支持,众多国内企业如阿里云、百度等也纷纷加入相关联盟。


开放协议的优势在于能包容更多玩家,促进方案的灵活性与多样性,随着更多参与者加入,互连技术的进化速度将加快,协议标准也会趋于统一。


● 变化驱动:为何需要更开放的互联方案?


随着 AI 模型规模不断增大,如模型大小每四到六个月就翻一番,对计算资源和数据传输的要求也随之急剧增加。


传统的互连技术在带宽、延迟和可扩展性方面逐渐难以满足需求。


Ultra Ethernet 和 UALink IP 解决方案旨在提供更高的带宽、更低的延迟以及更强的扩展性,以适应大规模 AI 加速器集群的高效互联,从而提升整个 AI 计算基础设施的性能,满足如运行大型语言模型(如 Llama 3 及其后续产品)时在 AI 集群内外移动大量数据的互连需求。


 市场需求的爆炸式增长:生成式AI和大模型(如ChatGPT)掀起了AI训练需求的浪潮,对算力和互联技术提出了前所未有的高要求。传统封闭式协议如英伟达的InfiniBand和NVLink尽管性能卓越,却因技术封闭和客户锁定问题受到限制。


 开放协议的行业趋势:UEC(Ultra Ethernet Consortium)和UALink联盟的相继成立,反映出行业对开放生态系统的强烈诉求。这不仅能够引入更多玩家参与技术演进,还能打破技术垄断,增强产业链韧性。



 技术复杂度的提升:AI加速器集群的扩展已从传统的业务网络互联(业务逻辑)转向对Scale Out和Scale Up网络性能的全面优化。


Ultra Ethernet通过引入LLR协议和改进传输层,解决了以太网尾延迟问题。而UALink则通过更高的带宽和低延迟,超越NVLink的性能极限,满足下一代AI服务器的需求。


打破英伟达在互连技术领域的封闭格局,构建一个开放、互操作的生态系统。


在这个生态系统中,不同的硬件厂商、软件开发商、云服务提供商等可以更加自由地进行技术创新与合作,避免因单一厂商垄断而带来的技术演进受限和产业链韧性降低的问题。


例如,UALink 联盟的成立使得 Broadcom 等公司可以制作 UALink 交换机,在多家公司的加速器中使用,促进了整个行业的技术共享与协同发展。


● 核心要素总结


 开放性:支持广泛的硬件和软件互操作性,避免厂商锁定。


 高性能:低至10微秒的延迟、1.6Tbps的带宽及200Gbps/通道的传输能力。


 扩展性:支持大规模端点互联,适配未来超大规模AI计算架构。


 灵活性:通过开放标准和联盟推进,形成适应多样化应用场景的生态系统。




Part 2

技术与市场拓展:
开放协议的未来潜力


行业从封闭的专有互连协议逐渐走向开放标准协议。


 以往英伟达的 InfiniBand 和 NVLink 虽性能强劲,但因其封闭性限制了技术的广泛应用与持续优化,且将客户 “套牢” 在其生态中。


 而 Ultra Ethernet 和 UALink 开放标准协议的出现,获得众多企业支持,反映出行业对开放生态的渴望与需求,未来数据中心互连技术将更倾向于开放合作,以实现资源共享与技术创新的最大化。


在技术层面呈现融合趋势。


 例如超以太网(Ultra Ethernet)在传统以太网基础上进行多层面改进,融合了新的传输层协议、链路层技术等,以满足大规模 AI 和 HPC 对网络的特殊需求;


 UALink 则融合了高性能内存访问、低延迟传输、多加速器互连等多种功能于一体,为 AI 服务器 Scale UP 互连提供一站式解决方案。


这种融合趋势将推动数据中心互连技术朝着更高效、更智能的方向发展,以适应复杂多变的 AI 和 HPC 应用场景。



Synopsys推出这两大解决方案的核心目标是推动开放协议在AI互联领域的普及。这一举措不仅有助于其在互联IP市场中抢占更多份额,还通过开放标准吸引行业广泛支持,从而加速技术和市场的双向演进。


Ultra Ethernet和UALink的开放性使其可以吸引更多参与者,如芯片厂商、云计算企业和AI开发者,共同构建开放的技术生态。随着标准化的推进,更多硬件和软件厂商可以围绕该协议开发产品,加速整个产业链的发展。


英伟达通过InfiniBand和NVLink占据了现有AI集群互联市场的主导地位,但其封闭特性和较高成本为竞争对手提供了机会。Synopsys方案的开放性和性能优势,有望成为其客户摆脱单一供应商依赖的有效替代方案。


对中国企业而言,开放协议的推广意味着更大的自主发展空间。通过参与UEC和UALink联盟,中国厂商有机会在AI集群互联领域缩小与国际技术水平的差距,同时增强本地产业链的独立性。



随着 Ultra Ethernet 和 UALink 技术的发展以及相关标准的不断完善,未来数据中心互连技术将持续演进。


 在带宽方面,可能会进一步提升,以满足不断增长的 AI 数据传输需求;


 在延迟方面,将继续优化,以提高 AI 计算的实时性;


 在可扩展性方面,将支持更大规模的 AI 加速器集群互联,适应未来超大规模 AI 数据中心的建设需求。


基于 Ultra Ethernet 和 UALink 的开放生态系统将日益繁荣。更多的企业将在这个生态系统中进行技术创新、产品研发和市场推广。


 例如,芯片制造商将开发出更多兼容 Ultra Ethernet 和 UALink 的芯片产品;系统集成商将构建出更高效、更灵活的 AI 计算系统;


 软件开发商将针对这些互连技术开发出更优化的软件应用,从而形成一个完整的、充满活力的产业链生态,推动整个 AI 和 HPC 行业的快速发展。



小结


Ultra Ethernet和UALink IP解决方案,代表着AI集群互联领域迈向开放和高效的新阶段,在开放协议逐渐成为主流的背景下,一个更加多元化、互操作性更强的AI计算生态在慢慢形成。


对于英伟达而言,这也是一个重新审视其封闭策略的契机。而在这场竞争与合作交织的技术变革中,创新和开发会是主旋律。

汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 66浏览
  • By Toradex秦海1). 简介为了保证基于 IEEE 802.3 协议设计的以太网设备接口可以互相兼容互联互通,需要进行 Ethernet Compliance 一致性测试,相关的技术原理说明请参考如下文章,本文就不赘述,主要展示基于 NXP i.MX8M Mini ARM 处理器平台进行 1000M/100M/10M 以太网端口进行一致性测试的测试流程。https://www.toradex.com
    hai.qin_651820742 2024-12-19 15:20 125浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 72浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 55浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 66浏览
  • 在强调可移植性(portable)的年代,人称「二合一笔电」的平板笔电便成为许多消费者趋之若鹜的3C产品。说到平板笔电,不论是其双向连接设计,面板与键盘底座可分离的独特功能,再加上兼具笔电模式、平板模式、翻转模式及帐篷模式等多种使用方式,让使用者在不同的使用情境下都能随意调整,轻巧灵活的便利性也为多数消费者提供了绝佳的使用体验。然而也正是这样的独特设计,潜藏着传统笔电供货商在产品设计上容易忽视的潜在风险。平板笔电Surface Pro 7+ 的各种使用模式。图片出处:Microsoft Comm
    百佳泰测试实验室 2024-12-19 17:40 156浏览
  • ​本文介绍PC电脑端运行VMware环境下,同时烧录固件检测不到设备的解决方法。触觉智能Purple Pi OH鸿蒙开发板演示,搭载了瑞芯微RK3566芯片,类树莓派设计,Laval官方社区主荐,已适配全新OpenHarmony5.0 Release系统!PC端烧录固件时提示没有发现设备按照各型号烧录手册中进入loader模式的操作方法,让开发板连接到PC端。正常来说开发板烧录时会显示“发现一个LOADER设备”,异常情况下,会提示“没有发现设备”,如下图所示: 解决步骤当在烧录系统固
    Industio_触觉智能 2024-12-18 18:07 79浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 62浏览
  • 沉寂已久的无人出租车赛道,在2024年突然升温了。前脚百度旗下萝卜快跑,宣布无人驾驶单量突破800万单;后脚特斯拉就于北京时间10月11日上午,召开了以“We,Robot”为主题的发布会,公布了无人驾驶车型Cybercab和Robovan,就连低调了好几个月的滴滴也在悄悄扩编,大手笔加码Robotaxi。不止是滴滴、百度、特斯拉,作为Robotaxi的重磅选手,文远知行与小马智行,也分别在10月份先后启动美股IPO,极氪也在近日宣布,其与Waymo合作开发的无人驾驶出行汽车将大规模量产交付,无人
    刘旷 2024-12-19 11:39 130浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 100浏览
  • 由于该文反应热烈,受到了众多工程师的关注,衷心感谢广大优秀工程师同仁的建言献策。特针对该技术点更新一版相关内容! 再次感谢大家的宝贵建议!填充铜(Solid Copper)和网格铜(Hatched Copper)是PCB设计中两种不同的铺铜方式,它们在电气性能、热管理、加工工艺和成本方面存在一些区别:1. 电气性能:填充铜:提供连续的导电层,具有极低的电阻和最小的电压降。适合大电流应用,并能提供优秀的电磁屏蔽效果,显著提高电磁兼容性。网格铜:由于铜线之间存在间隔,电阻相对较高,电压降也
    为昕科技 2024-12-18 17:11 120浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 108浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦