阿里云近期公布了其为大型语言模型(LLM)训练设计的自研以太网网络架构,该架构已在实际业务中成功运行8个月。这一创新网络设计不仅提升了数据中心的效率和稳定性,还有助于减少对特定供应商的依赖,推动了整个行业的发展。

阿里云近期宣布了一项重大技术创新,展示了其为大型语言模型(LLM)训练设计的数据中心网络架构,该架构基于以太网技术,已在生产环境中稳定运行长达8个月,标志着AI基础设施领域的一大突破。这一设计旨在优化数据传输效率,解决传统网络在处理大规模AI模型训练时面临的诸多挑战,特别是针对突发流量处理和网络负载均衡的问题。

专为GPU同步设计,应对LLM训练流量挑战

阿里云的高级工程师及网络研究科学家翟恩南通过GitHub公布了题为《Alibaba HPN: A Data Center Network for Large Language Model Training》的研究论文,该论文将在8月举办的SIGCOMM会议上发表。(SIGCOMM是计算机协会数据通信特别兴趣小组的年度聚会)

论文揭示,传统云计算流量通常涉及数百万个小规模流(小于10Gbps),而LLM训练则会在每个主机上产生周期性的突发流,流量高达400Gbps。这种特性导致了等价多路径路由(ECMP)技术中常见的哈希极化问题,影响了负载均衡和带宽的有效利用。

因此,阿里云自主研发了“高性能网络”(HPN),通过减少ECMP的使用,有效避免了哈希极化,同时精确选择网络路径以适应大规模流量需求。

考虑到GPU在LLM训练时需要高度同步工作,阿里云的网络设计特别考虑到了单点故障问题,使用了一款51.2 Tb/sec的以太网单芯片ToR(Top of Rack,ToR)交换机。每个用于训练的主机配备了8个GPU和9个网络接口卡(NIC),其中每个NIC有两个200GB/s的端口,确保了即使在单个交换机故障的情况下也能维持通信。

通过“轨道”设计,每个NIC对应一个GPU,实现了每个加速器享有400Gb/s的RDMA网络吞吐量,整体带宽达到了3.2Tb/s,最大化了GPU的PCIe Gen5 x16接口潜力。

以太网联盟与开放标准的胜利

有媒体认为,阿里云选择以太网是为了避免过度依赖特定供应商,并利用整个以太网联盟的力量实现更快的发展。这一决策与越来越多厂商开始支持以太网,逃离英伟达(NVIDIA)NVlink在云端AI互联上的垄断趋势相吻合。

尽管放弃了用于主机间通信的NVlink,阿里云仍然在主机内网络中使用了Nvidia的专有技术,因为主机内GPU之间的通信需要更大的带宽。然而,由于通道之间的通信速度较慢,每个主机提供的“专用400 Gbps RDMA网络吞吐量,总带宽达到3.2 Tbps”,足以最大化PCIe Gen5x16显卡的带宽。

阿里云选择以太网作为基础,还因为以太网联盟的支持和开放标准的长期优势。这一决策得到了AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨头的广泛欢迎,这些公司正通过Ultra Accelerator Link联盟等倡议,共同推动开放标准网络技术的发展,以期对抗NVIDIA在AI网络领域的主导地位。

数据中心的独特设计

阿里云的数据中心采用“Pod”模式,每个Pod可容纳15,000个GPU,与HPN结合,完美匹配了18MW建筑的功率限制。光纤长度的优化设计允许使用成本更低的多模光收发器。尽管HPN的引入增加了布线复杂度,但阿里云已经在探索更高效的设计,如下一代网络架构,预计将配备更高容量的单芯片交换机。

此外,阿里云在数据中心还采用了51.2Tb/s的以太网单芯片交换机,显著提升了网络吞吐量和稳定性,同时降低了能耗。然而,单芯片交换机在运行过程中面临高温难题,市场上缺乏有效散热解决方案。

为此,阿里云自主研发了以更多支柱为中心的均热板散热器,通过优化结构设计,有效控制了芯片温度,确保了交换机的稳定运行。

然而,HPN仍存在一些缺点,最大的缺点是其复杂的布线结构。每个主机有九个NIC,每个NIC连接到两个不同的ToR交换机,这增加了插孔和端口混淆的可能性。尽管如此,这项技术据称比NVlink更经济,从而使任何建立数据中心的机构都能在设置成本上节省大量资金(甚至可能使其避免使用Nvidia技术,特别是在中美芯片战中受到制裁的公司)。

责编:Luffy
阅读全文,请先
您可能感兴趣
作为IIC Shenzhen 2024主论坛之一,2024全球CEO峰会以“边缘·芯未来”为主题,邀请全球领先的半导体技术厂商探讨和分享边缘AI技术在硬件和软件上的创新和布局,以及边缘AI的发展为半导体产业带来的巨大的市场机遇和技术挑战。
“不要看我们今天和大家欢聚一堂,以为我们有伟大的梦想,不是,我们还在挣扎中。我们内部讲话与跟你们的聊天,完全不是一个量级,我们内部讲话还在讲怎么克服很多困难。”任正非说道。
根据SemiAnalysis公司首席分析师Dylan Patel的说法,目前SK海力士在HBM市场的整体份额超过70%,其中HBM3的市场份额超过85%。
Gartner高级首席分析师 Rajeev Rajput 在一份声明中表示:“人工智能相关半导体需求的持续激增和电子产品生产的复苏推动了这一增长,而汽车和工业部门的需求仍然疲软。短期内,存储市场和图形处理单元(GPU)将推动全球半导体收入。”
这些趋势反映了当前AI领域对于模型的可解释性、伦理监督、跨模态学习以及实际应用场景的重视。同时,随着生成式AI技术的成熟,AI的应用范围正在不断扩大,从科学研究到日常生活的各个领域都有其身影。此外,随着AI能力的增长,相关的监管和技术伦理问题也变得越来越重要。
目前,英伟达的Blackwell芯片需求旺盛,市场对其需求远超供应,导致供不应求的局面持续存在。最近,戴尔、谷歌、微软等均表示,搭载英伟达Blackwell人工智能加速器的设备将很快出货。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据路透社看到的草案,日本政府计划提出一个耗资 10 万亿日元的计划,在“数年”时间
台积电7nm停供中国大陆!集微网报道称,从多个消息源获悉,台积电已经向目前所有中国大陆AI芯片客户发送正式电子邮件,宣布自下周(11月11日)起,将暂停向中国大陆AI/GPU客户供应所有7纳米(nm)
全新产品几乎适用于任何应用,大幅减少元件数量、BOM成本和占板空间   瑞萨电子今日宣布,推出全新AnalogPAK™ IC系列,其中包括低功耗——SLG47001/
新原型的耐用性增强意味着它可以重复拉伸超过10000次。美通社消息,全球领先的显示技术创新者LG Display宣布,推出了全球首款可拉伸显示器,其伸长率可达50%,是业内最高的伸长率。可拉伸显示器被
由前苹果和英特尔等资深人士共同创立的硅谷人工智能芯片初创公司Tenstorrent,近日宣布与日本政府达成一项重要协议。根据协议,Tenstorrent将在未来五年内,于其美国办公室为日本培训多达20
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓世界先进11月11日公告,位于桃园的晶圆三厂于下午12:10分因供电系统设备异常,致使厂区电力中断,
 会 议 预 告  活动倒计时 8 天11月20-21日 | 行家说新型显示全产业链年会近期,点莘技术、秋水半导体、纳视智能、睿励科学仪器等4家Micro LED相关企业相继完成新一轮融资,单笔金额最
11月12日,百度创始人李彦宏在百度世界2024大会上表示,智能体是AI应用最主流的形态,即将迎来爆发点,这里是李彦宏演讲完整视频。●付费专栏文章小白自媒体赚钱,年入十万不是梦:专栏介绍 丨小白自媒体
近日,市场中有关“美国商务部要求台积电暂停对中国大陆AI芯片企业供货7nm及以下芯片代工服务”的消息不断蔓延。台积电于11月8日表示:作为一家守法的公司,一向致力于遵循所有可适用的法令与法规,包括可适
11月11日,据路透社消息,华为技术有限公司要求美国法官驳回一项针对其的联邦起诉书的大部分内容。该起诉书指控华为试图窃取美国竞争对手的技术机密,并就其相关业务误导银行。           报道称,华