打造首个AI智算集群网络后,阿里云与微软、Meta等共同制定下一代AI网络架构标准

原创 悲了伤的白犀牛 2024-05-15 17:26

 /记得星标/

比大部分人早一步看见未来

AI时代汹涌而来,对当前的信息基础设施造成了巨大的冲击。

一个简单的例子,训练一个1750亿参数的GPT-3模型需要消耗算力3640 PFlop/s-dav(以一万亿次每秒速度计算,需要3640天完成),GPT-4的参数量高达1.8万亿,而即将发布的GPT-5可能将突破10万亿参数。

而这仅仅是基础模型训练,后面还有应用模型训练、模型的应用、模型的服务等等,这将需要消耗的算力将是何等恐怖?仅靠芯片性能提升肯定是无法满足对算力需求的增长的。

- 01 -

怎么解决这个问题呢?

当前业界的主流思路:一方面是从模型压缩、知识蒸馏、多任务学习等方面入手,提高计算效率;另一方面则是从芯片、框架、模型到应用的全链路来进行优化,保证大规模模型稳定高效地运行。其中,计算资源管理、异构环境调度、故障容错等方面的能力都极为关键。

很多人往往有一个误解,觉得只要有足够多的GPU,就可以堆起来训练出优秀的大模型,但实际上,要把这上万个 GPU 连起来,像一台超级计算机那样工作,这是一个非常复杂的分布式系统。

其中涉及到芯片的选择和适配、服务器设计、数据中心的分布式框架设计,其中最关键的环节是——网络设计:在集群算力线性扩展的背景下,如何设计一个高效网络有规模限制、有 hierarchical(按等级划分的)的网络架构,还要解决拥塞和稳定问题。

这是一个非常高难度的系统工程。

2023年7月,Linux基金会发起成立开源组织——超以太网联盟UEC (Ultra Ethernet Consortium) ,正是为了解决AI网络架构的问题。

UEC成立不到一年,全球知名科技公司纷纷加入UEC,是当下全球AI基础设施领域最受人关注、发展最迅速的技术联盟。

而在UEC内部有一个核心的组织——技术咨询委员会,这是联盟技术决策中心,负责制定技术路线图,把控核心技术及方向,协同推进各小组工作,并统筹所有技术提案及标准制定。

简单来说,UEC技术委员会将很大程度上主导AI网络基础设施发展,正是由于这种特殊性,只有技术实力过硬、对开源社区贡献大的会员机构才能入选——而刚刚,来自中国的阿里云入选了新一届UEC技术委员会,将与微软、Meta、AMD、Intel等巨头一同制定下一代AI智算网络标准

值得注意的是,阿里云是这个委员会中唯一中国公司成员,这也意味着阿里云将代表中国业界在国际舞台上输出观点和技术。

- 02 -

为什么阿里云能入选UEC技术委员会

我认为这跟阿里云近年来在AI网络架构演进上的探索及实践密不可分。

就在一天前的5月14日,阿里云AI高性能网络架构HPN 7.0成果论文被SIGCOMM2024收录,成为SIGCOMM历史上首篇关于AI智算集群网络架构的论文。

这是业界的一个标志性事件。
SIGCOMM是全球最权威的计算机通信网络顶会,对论文质量要求极高,入选成果极有可能成为主流技术范式标准。2015年,谷歌Jupiter网络入选SIGCOMM,随后发展成为经典架构。此次阿里云HPN7.0斩获SIGCOMM首篇AI高性能网络论文,这意味着阿里云HPN7.0很可能将成为下一代AI高性能网络架构的新范式。
且不谈其背后的重要意义,先从技术层面来看,阿里云HPN7.0实实在在推动解决AI时代智能算力困境的问题——
(HPN7.0架构:为AI设计的高性能网络集群)
据了解,HPN 7.0创新性地采用了“双上联+多轨+双平面”的网络架构,通过双上联设计,提高了网络的可靠性和性能;多轨技术则允许多个数据流并行传输,增加了网络吞吐量;而双平面架构进一步增强了网络的稳定性和容错能力。
与此同时,阿里云自研了Solar-RDMA和ACCL通信库,针对HPN 7.0架构进行了优化,能够提供更高效的数据传输和通信性能,这有助于减少网络延迟,提高数据传输效率,从而加速AI模型的训练和推理过程。
此外,HPN 7.0能够实现单层千卡、两层万卡的高性能和高稳定互联,能够支持更大规模的AI模型训练和数据处理任务,同时保持网络的稳定性和可靠性。
以上举措都是阿里云首创之举,在很大程度上提高了智算集群的性能和稳定性。HPN 7.0自2023年9月在阿里云大规模部署以来,大模型训练性能在典型场景下提升了14.9%,基于HPN 7.0架构训练的通义千问2.5版本大模型在理解能力、逻辑推理等方面均有显著提升。
简单来说,随着AI模型的不断增大和复杂化,对高性能网络的需求也日益增长,HPN 7.0架构正是为大模型极致性能而设计的。
事实上,阿里云数据中心网络架构研究方面积累是十数年的经验,经历了经典网络时代、SDN软件定义网络时代,并率先进入到AI Infra 时代(AI 计算重新定义网络),HPN 7.0并非横空出世,而是经过长时间一步步的探索、实践、升级而来,并且将持续创新、演进下去。
- 03 -
怎么来理解阿里云在AI集群网络架构领域的突破性意义呢?我认为可以从两个层面来解读:
第一,过去十年,谷歌提出Jupiter网络架构,代表了业界数据中心网络的最高水准,成为业界最推崇的范式,为云计算的大发展提供了基础。而如今面向AI时代新型网络基础设施的建设,阿里云率先提出了一个全新高性能标准,且得到了自身业务的实践验证,这对于全球业界具有重要的参考价值,很可能将成为下一代AI高性能网络架构的新范式。在这一点上,阿里云代表中国完成了战略卡位。
第二,当前在一定程度上看,全球智能算力的发展似乎掌控在英伟达手中,英伟达主导的InfiniBand网络体系成为了类似于苹果ios的封闭性系统。而UEC联盟的成立则是希望通过开源开放的技术合作促进创新,这一次阿里云加入UEC技术咨询委员会,与微软、Intel等巨头一同制定下一代AI智算网络标准,在给全球AI产业提供另一个新选择的同时,也让中国在面向未来AI的核心底层技术的标准制定中,首次掌握了主动权。
- END -

悲了伤的白犀牛 一群有理想、有力量的通信从业者。专注5G、算力网络、智慧中台、云计算。
评论
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 87浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 73浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 58浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 119浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 102浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 112浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 103浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦