随着以ChatGPT为代表的AIGC应用火爆,带来了对算力需求的急剧攀升。传统以太网性能不够的问题逐渐暴露,这种情况已经影响到人工智能(AI)和高性能计算(HPC)的发展,各大厂商也提高了对于网络架构的重视程度。
近日,Linux 基金会(Linux Foundation)宣布成立超以太网联盟 (Ultra Ethernet Consortium,UEC),以优化高性能网络的以太网标准。该联盟由 AMD、Arista、Broadcom、Cisco、Eviden、HPE、Intel、Meta 和 Microsoft 等行业领导者组成,旨在完善以太网标准,以更好地支持人工智能、机器学习和高性能计算不断增长的需求。
该联盟瞄准的是一个快速增长的领域,从而可能为渠道合作伙伴带来重大机遇。研究公司650 Group表示,预计今年数据中心AI网络市场规模将扩大到30亿美金,到2027年将达到100亿美金。
高性能网络的协作方法
UEC 旨在寻求通过“全行业合作”,构建一个完整的基于以太网的通信堆栈架构,该架构可以处理各种工作负载,同时具有可扩展性和可扩展性。性价比高。该联盟由在高性能解决方案领域拥有悠久历史和经验的公司创立,每家公司都以平等的方式为更广泛的高性能生态系统做出了重大贡献。
“这并不是要彻底改革以太网,”超级以太网联盟主席 J Metz 博士说,“而是要调整以太网以提高具有特定性能要求的工作负载的效率。我们正在研究每一层,从物理层一直到软件层,以找到提高效率和性能的最佳方法。”
该联盟的目的是寻求在远程直接数据存取(RDMA)基础上进一步升级。
目前,基于RDMA的RoCE能够在以太网协议下实现远程内存访问,绕过CPU控制,实现数据的“0拷贝”,同时,数据包的封装和解封都由网卡完成,从而极大节省CPU资源。但目前RoCE暴露出一个问题:必须运行在无损网络中。RDMA协议下,如果出现丢包或乱包,会导致回退N帧(Go-back-N,GBN)问题,必须重新传输丢失/乱序的这N个包。RDMA引入优先流量控制(PFC)协议,从接收方向发送方发送PAUSE帧,从而实现无损网络,但这也带来队头堵塞问题,导致通信网络性能下降。
超以太网传输(Ultra Ethernet Transport,UET)是下一代应用于AI超算和HPC的网络协议。对于AI超算和HPC,通信网络必须又快又准地将数据包传送到对应节点,UET提出在有损网络下的针对队头堵塞和堵塞扩散的解决方案:保留IP协议,因此UET本质还是开放协议;多路径+数据包喷洒(packet-spraying)技术,充分利用高带宽通信网络,无需负载平衡算法;播送管理机制,减少掉线;支持对API进行无序数据包发送,提升网络并发性能;支持百万数量级端口,满足AI超算和HPC集群所需的交换规模。
此外,UET特别考虑了AI计算的安全工程问题。UET利用IPSec和PSP等现代加密方法,实现高效的API会话管理、身份验证和数据保密。UET支持数万个计算节点共享密钥,符合AI超算多节点训练和推理的安全工程需求,从而实现保护用户隐私、便于内容监管。
英伟达可能遭遇重创?
一位解决方案提供商高管认为,超以太网联盟的一个可能目标是提供英伟达(Nvidia) InfiniBand网络解决方案的替代方案,该解决方案主要是针对人工智能和高性能计算工作负载的,而且值得注意的是,Nvidia并不是该联盟的成员。
Nor-Tech是一家总部位于美国明尼苏达州伯恩斯维尔的高性能计算系统集成商,公司工程副总裁Dominic Daninger表示:“他们正在尝试找这些框架的替代选择。”
Nvidia没有对此进行置评。
Daninger表示,如果成功构建可互操作且速度更快的、基于以太网的解决方案堆栈,那么该联盟则可能会削弱Nvidia在人工智能和高性能计算领域的主导地位,因为Nvidia推广的InfiniBand是在2021年收购Mellanox时获得的,作为连接GPU集群以执行此类工作负载的最佳低延迟解决方案。
此前适配于AI/HPC的Infiniband架构相对封闭,基于以太网的UEC在RoCE的基础上更多考虑了结合以太网的优势,在开放的生态下做非无损网络以满足AI和HPC的要求。他表示:“英特尔、AMD和博通等公司可能想要借此摆脱和Nvidia加速器及连接结构的束缚。”
2024年上市的相关产品或因此改变
联盟将专注于最大限度地减少通信堆栈更改,同时维护和促进以太网互操作性。技术目标包括开发规范、API 和源代码,以定义以太网通信的协议、信令特征、接口和数据结构。该联盟还将致力于链路级和端到端网络传输协议、拥塞、遥测、信令机制以及软件、存储、管理和安全结构。
该联盟将分成四个工作组,分别负责物理层、链路层、传输层和软件层,每个工作组先完成自己的工作然后不同工作组结合到一起,最终推出超以太网传输协议。
联盟的终极目标是开发一种性能超越“当今专业技术”的、基于以太网的架构,重点关注功能、性能、总拥有成本、互操作性以及为用户和开发人员提供的友好环境。
超以太网联盟预计首批采用其规范的产品将于2024年问世,行业分析师和创始成员表达了他们对 UEC 计划的支持和兴奋。
Hyperion Research首席执行官Earl Joseph博士、Intersect360 Research首席执行官Addison Snell以及Cambrian-AI Research创始人兼首席分析师Karl Freund均强调了UEC在满足大规模人工智能和高性能计算不断增长的网络需求方面的重要性。
创始成员也表达了对UEC的承诺。 AMD 的 Robert Hormuth、Arista 的 Hugh Holbrook、Broadcom 的 Ram Velaga、思科的 Rakesh Chopra、Atos Group 的 Eric Eppe、HPE 的 Justin Hotard、英特尔的 Jeff McVeigh、Meta 的 Alexis Björlin 和微软的 Steve Scott 都分享了他们对 UEC 重要性以及各自公司将在联盟中扮演的角色的看法。
网友热议:
@蚁工厂 :似乎是数据中心里RoCE协议的升级版,和普通网络关系不大。大的数据中心包括阿里云应该都在搞自己的类似的技术。
@不倒翁:这个联盟要做好持久战的准备,要是拍电影可以,“复仇者联盟”分分钟搞起,但是现实世界中,针对以太网的标准、技术、应用进行升级革命,是个大工程。
@梵蒂冈城的同胞 :没有中国企业的联盟都是伪高科技。
@周一见:这个项目的出现令人兴奋,这对于处理大量数据和复杂计算任务的人工智能和HPC系统来说至关重要,期待看到这个项目的进一步发展以及后续给我们带来的新技术和新产品。
@JaysonPetrelli :大模型的爆发必然会让DCN做相应的改变,这也是我的研究方向之一,很多网友都在说我们在干嘛,看看别人什么的话,这个其实不用担心,我们不仅在学术界,而且在工业界早就看到这个趋势了,也早就有部署跟研究了。
@贰言:这种跨公司、跨行业的合作模式,虽然有利于打破行业壁垒,推动技术的融合和创新。但这种巨头公司的联合也可能会导致技术垄断、技术依赖、影响市场的竞争。