打造首个AI智算集群网络后，阿里云与微软、Meta等共同制定下一代AI网络架构标准

原创悲了伤的白犀牛 2024-05-15 17:26 1276浏览 0评论 0点赞

汽车照明系统的“智慧大脑”，竟然是它？》 多物理场仿真在半导体制程中的应用

/记得星标我/

比大部分人早一步看见未来

AI时代汹涌而来，对当前的信息基础设施造成了巨大的冲击。

一个简单的例子，训练一个1750亿参数的GPT-3模型需要消耗算力3640 PFlop/s-dav（以一万亿次每秒速度计算，需要3640天完成），GPT-4的参数量高达1.8万亿，而即将发布的GPT-5可能将突破10万亿参数。

而这仅仅是基础模型训练，后面还有应用模型训练、模型的应用、模型的服务等等，这将需要消耗的算力将是何等恐怖？仅靠芯片性能提升肯定是无法满足对算力需求的增长的。

- 01 -

怎么解决这个问题呢？

当前业界的主流思路：一方面是从模型压缩、知识蒸馏、多任务学习等方面入手，提高计算效率；另一方面则是从芯片、框架、模型到应用的全链路来进行优化，保证大规模模型稳定高效地运行。其中，计算资源管理、异构环境调度、故障容错等方面的能力都极为关键。

很多人往往有一个误解，觉得只要有足够多的GPU，就可以堆起来训练出优秀的大模型，但实际上，要把这上万个 GPU 连起来，像一台超级计算机那样工作，这是一个非常复杂的分布式系统。

其中涉及到芯片的选择和适配、服务器设计、数据中心的分布式框架设计，其中最关键的环节是——网络设计：在集群算力线性扩展的背景下，如何设计一个高效网络有规模限制、有 hierarchical（按等级划分的）的网络架构，还要解决拥塞和稳定问题。

这是一个非常高难度的系统工程。

2023年7月，Linux基金会发起成立开源组织——超以太网联盟UEC (Ultra Ethernet Consortium) ，正是为了解决AI网络架构的问题。

UEC成立不到一年，全球知名科技公司纷纷加入UEC，是当下全球AI基础设施领域最受人关注、发展最迅速的技术联盟。

而在UEC内部有一个核心的组织——技术咨询委员会，这是联盟的技术决策中心，负责制定技术路线图，把控核心技术及方向，协同推进各小组工作，并统筹所有技术提案及标准制定。

简单来说，UEC技术委员会将很大程度上主导AI网络基础设施发展，正是由于这种特殊性，只有技术实力过硬、对开源社区贡献大的会员机构才能入选——而刚刚，来自中国的阿里云入选了新一届UEC技术委员会，将与微软、Meta、AMD、Intel等巨头一同制定下一代AI智算网络标准。

值得注意的是，阿里云是这个委员会中唯一的中国公司成员，这也意味着阿里云将代表中国业界在国际舞台上输出观点和技术。

- 02 -

为什么阿里云能入选UEC技术委员会？

我认为这跟阿里云近年来在AI网络架构演进上的探索及实践密不可分。

就在一天前的5月14日，阿里云AI高性能网络架构HPN 7.0成果论文被SIGCOMM2024收录，成为SIGCOMM历史上首篇关于AI智算集群网络架构的论文。

这是业界的一个标志性事件。

SIGCOMM是全球最权威的计算机通信网络顶会，对论文质量要求极高，入选成果极有可能成为主流技术范式标准。2015年，谷歌Jupiter网络入选SIGCOMM，随后发展成为经典架构。此次阿里云HPN7.0斩获SIGCOMM首篇AI高性能网络论文，这意味着阿里云HPN7.0很可能将成为下一代AI高性能网络架构的新范式。

且不谈其背后的重要意义，先从技术层面来看，阿里云HPN7.0实实在在推动解决AI时代智能算力困境的问题——

（HPN7.0架构：为AI设计的高性能网络集群）

据了解，HPN 7.0创新性地采用了“双上联+多轨+双平面”的网络架构，通过双上联设计，提高了网络的可靠性和性能；多轨技术则允许多个数据流并行传输，增加了网络吞吐量；而双平面架构进一步增强了网络的稳定性和容错能力。

与此同时，阿里云自研了Solar-RDMA和ACCL通信库，针对HPN 7.0架构进行了优化，能够提供更高效的数据传输和通信性能，这有助于减少网络延迟，提高数据传输效率，从而加速AI模型的训练和推理过程。

此外，HPN 7.0能够实现单层千卡、两层万卡的高性能和高稳定互联，能够支持更大规模的AI模型训练和数据处理任务，同时保持网络的稳定性和可靠性。

以上举措都是阿里云首创之举，在很大程度上提高了智算集群的性能和稳定性。HPN 7.0自2023年9月在阿里云大规模部署以来，大模型训练性能在典型场景下提升了14.9%，基于HPN 7.0架构训练的通义千问2.5版本大模型在理解能力、逻辑推理等方面均有显著提升。

简单来说，随着AI模型的不断增大和复杂化，对高性能网络的需求也日益增长，HPN 7.0架构正是为大模型极致性能而设计的。

事实上，阿里云在数据中心网络架构研究方面积累是十数年的经验，经历了经典网络时代、SDN软件定义网络时代，并率先进入到AI Infra 时代（AI 计算重新定义网络），HPN 7.0并非横空出世，而是经过长时间一步步的探索、实践、升级而来，并且将持续创新、演进下去。

- 03 -

怎么来理解阿里云在AI集群网络架构领域的突破性意义呢？我认为可以从两个层面来解读：

第一，过去十年，谷歌提出Jupiter网络架构，代表了业界数据中心网络的最高水准，成为业界最推崇的范式，为云计算的大发展提供了基础。而如今面向AI时代新型网络基础设施的建设，阿里云率先提出了一个全新高性能标准，且得到了自身业务的实践验证，这对于全球业界具有重要的参考价值，很可能将成为下一代AI高性能网络架构的新范式。在这一点上，阿里云代表中国完成了战略卡位。

第二，当前在一定程度上看，全球智能算力的发展似乎掌控在英伟达手中，英伟达主导的InfiniBand网络体系成为了类似于苹果ios的封闭性系统。而UEC联盟的成立则是希望通过开源开放的技术合作促进创新，这一次阿里云加入UEC技术咨询委员会，与微软、Intel等巨头一同制定下一代AI智算网络标准，在给全球AI产业提供另一个新选择的同时，也让中国在面向未来AI的核心底层技术的标准制定中，首次掌握了主动权。

- END -

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

悲了伤的白犀牛一群有理想、有力量的通信从业者。专注5G、算力网络、智慧中台、云计算。

进入专栏

悲了伤的白犀牛一群有理想、有力量的通信从业者。专注5G、算力网络、智慧中台、云计算。

文章：1011篇粉丝：8人

关注  私信

打造首个AI智算集群网络后，阿里云与微软、Meta等共同制定下一代AI网络架构标准

立即预约直播：半导体设计及工艺仿真全解析

最近文章

热门文章

推荐

最新资讯