/记得星标我/
比大部分人早一步看见未来
AI时代汹涌而来,对当前的信息基础设施造成了巨大的冲击。
一个简单的例子,训练一个1750亿参数的GPT-3模型需要消耗算力3640 PFlop/s-dav(以一万亿次每秒速度计算,需要3640天完成),GPT-4的参数量高达1.8万亿,而即将发布的GPT-5可能将突破10万亿参数。
而这仅仅是基础模型训练,后面还有应用模型训练、模型的应用、模型的服务等等,这将需要消耗的算力将是何等恐怖?仅靠芯片性能提升肯定是无法满足对算力需求的增长的。
- 01 -
怎么解决这个问题呢?
当前业界的主流思路:一方面是从模型压缩、知识蒸馏、多任务学习等方面入手,提高计算效率;另一方面则是从芯片、框架、模型到应用的全链路来进行优化,保证大规模模型稳定高效地运行。其中,计算资源管理、异构环境调度、故障容错等方面的能力都极为关键。
很多人往往有一个误解,觉得只要有足够多的GPU,就可以堆起来训练出优秀的大模型,但实际上,要把这上万个 GPU 连起来,像一台超级计算机那样工作,这是一个非常复杂的分布式系统。
其中涉及到芯片的选择和适配、服务器设计、数据中心的分布式框架设计,其中最关键的环节是——网络设计:在集群算力线性扩展的背景下,如何设计一个高效网络有规模限制、有 hierarchical(按等级划分的)的网络架构,还要解决拥塞和稳定问题。
这是一个非常高难度的系统工程。
2023年7月,Linux基金会发起成立开源组织——超以太网联盟UEC (Ultra Ethernet Consortium) ,正是为了解决AI网络架构的问题。
UEC成立不到一年,全球知名科技公司纷纷加入UEC,是当下全球AI基础设施领域最受人关注、发展最迅速的技术联盟。
而在UEC内部有一个核心的组织——技术咨询委员会,这是联盟的技术决策中心,负责制定技术路线图,把控核心技术及方向,协同推进各小组工作,并统筹所有技术提案及标准制定。
简单来说,UEC技术委员会将很大程度上主导AI网络基础设施发展,正是由于这种特殊性,只有技术实力过硬、对开源社区贡献大的会员机构才能入选——而刚刚,来自中国的阿里云入选了新一届UEC技术委员会,将与微软、Meta、AMD、Intel等巨头一同制定下一代AI智算网络标准。
值得注意的是,阿里云是这个委员会中唯一的中国公司成员,这也意味着阿里云将代表中国业界在国际舞台上输出观点和技术。
- 02 -
为什么阿里云能入选UEC技术委员会?
我认为这跟阿里云近年来在AI网络架构演进上的探索及实践密不可分。
就在一天前的5月14日,阿里云AI高性能网络架构HPN 7.0成果论文被SIGCOMM2024收录,成为SIGCOMM历史上首篇关于AI智算集群网络架构的论文。
SIGCOMM是全球最权威的计算机通信网络顶会,对论文质量要求极高,入选成果极有可能成为主流技术范式标准。2015年,谷歌Jupiter网络入选SIGCOMM,随后发展成为经典架构。此次阿里云HPN7.0斩获SIGCOMM首篇AI高性能网络论文,这意味着阿里云HPN7.0很可能将成为下一代AI高性能网络架构的新范式。且不谈其背后的重要意义,先从技术层面来看,阿里云HPN7.0实实在在推动解决AI时代智能算力困境的问题——据了解,HPN 7.0创新性地采用了“双上联+多轨+双平面”的网络架构,通过双上联设计,提高了网络的可靠性和性能;多轨技术则允许多个数据流并行传输,增加了网络吞吐量;而双平面架构进一步增强了网络的稳定性和容错能力。与此同时,阿里云自研了Solar-RDMA和ACCL通信库,针对HPN 7.0架构进行了优化,能够提供更高效的数据传输和通信性能,这有助于减少网络延迟,提高数据传输效率,从而加速AI模型的训练和推理过程。此外,HPN 7.0能够实现单层千卡、两层万卡的高性能和高稳定互联,能够支持更大规模的AI模型训练和数据处理任务,同时保持网络的稳定性和可靠性。以上举措都是阿里云首创之举,在很大程度上提高了智算集群的性能和稳定性。HPN 7.0自2023年9月在阿里云大规模部署以来,大模型训练性能在典型场景下提升了14.9%,基于HPN 7.0架构训练的通义千问2.5版本大模型在理解能力、逻辑推理等方面均有显著提升。简单来说,随着AI模型的不断增大和复杂化,对高性能网络的需求也日益增长,HPN 7.0架构正是为大模型极致性能而设计的。事实上,阿里云在数据中心网络架构研究方面积累是十数年的经验,经历了经典网络时代、SDN软件定义网络时代,并率先进入到AI Infra 时代(AI 计算重新定义网络),HPN 7.0并非横空出世,而是经过长时间一步步的探索、实践、升级而来,并且将持续创新、演进下去。怎么来理解阿里云在AI集群网络架构领域的突破性意义呢?我认为可以从两个层面来解读:第一,过去十年,谷歌提出Jupiter网络架构,代表了业界数据中心网络的最高水准,成为业界最推崇的范式,为云计算的大发展提供了基础。而如今面向AI时代新型网络基础设施的建设,阿里云率先提出了一个全新高性能标准,且得到了自身业务的实践验证,这对于全球业界具有重要的参考价值,很可能将成为下一代AI高性能网络架构的新范式。在这一点上,阿里云代表中国完成了战略卡位。第二,当前在一定程度上看,全球智能算力的发展似乎掌控在英伟达手中,英伟达主导的InfiniBand网络体系成为了类似于苹果ios的封闭性系统。而UEC联盟的成立则是希望通过开源开放的技术合作促进创新,这一次阿里云加入UEC技术咨询委员会,与微软、Intel等巨头一同制定下一代AI智算网络标准,在给全球AI产业提供另一个新选择的同时,也让中国在面向未来AI的核心底层技术的标准制定中,首次掌握了主动权。