阿里云近期公布了其为大型语言模型(LLM)训练设计的自研以太网网络架构,该架构已在实际业务中成功运行8个月。这一创新网络设计不仅提升了数据中心的效率和稳定性,还有助于减少对特定供应商的依赖,推动了整个行业的发展。

阿里云近期宣布了一项重大技术创新,展示了其为大型语言模型(LLM)训练设计的数据中心网络架构,该架构基于以太网技术,已在生产环境中稳定运行长达8个月,标志着AI基础设施领域的一大突破。这一设计旨在优化数据传输效率,解决传统网络在处理大规模AI模型训练时面临的诸多挑战,特别是针对突发流量处理和网络负载均衡的问题。

专为GPU同步设计,应对LLM训练流量挑战

阿里云的高级工程师及网络研究科学家翟恩南通过GitHub公布了题为《Alibaba HPN: A Data Center Network for Large Language Model Training》的研究论文,该论文将在8月举办的SIGCOMM会议上发表。(SIGCOMM是计算机协会数据通信特别兴趣小组的年度聚会)

论文揭示,传统云计算流量通常涉及数百万个小规模流(小于10Gbps),而LLM训练则会在每个主机上产生周期性的突发流,流量高达400Gbps。这种特性导致了等价多路径路由(ECMP)技术中常见的哈希极化问题,影响了负载均衡和带宽的有效利用。

因此,阿里云自主研发了“高性能网络”(HPN),通过减少ECMP的使用,有效避免了哈希极化,同时精确选择网络路径以适应大规模流量需求。

考虑到GPU在LLM训练时需要高度同步工作,阿里云的网络设计特别考虑到了单点故障问题,使用了一款51.2 Tb/sec的以太网单芯片ToR(Top of Rack,ToR)交换机。每个用于训练的主机配备了8个GPU和9个网络接口卡(NIC),其中每个NIC有两个200GB/s的端口,确保了即使在单个交换机故障的情况下也能维持通信。

通过“轨道”设计,每个NIC对应一个GPU,实现了每个加速器享有400Gb/s的RDMA网络吞吐量,整体带宽达到了3.2Tb/s,最大化了GPU的PCIe Gen5 x16接口潜力。

以太网联盟与开放标准的胜利

有媒体认为,阿里云选择以太网是为了避免过度依赖特定供应商,并利用整个以太网联盟的力量实现更快的发展。这一决策与越来越多厂商开始支持以太网,逃离英伟达(NVIDIA)NVlink在云端AI互联上的垄断趋势相吻合。

尽管放弃了用于主机间通信的NVlink,阿里云仍然在主机内网络中使用了Nvidia的专有技术,因为主机内GPU之间的通信需要更大的带宽。然而,由于通道之间的通信速度较慢,每个主机提供的“专用400 Gbps RDMA网络吞吐量,总带宽达到3.2 Tbps”,足以最大化PCIe Gen5x16显卡的带宽。

阿里云选择以太网作为基础,还因为以太网联盟的支持和开放标准的长期优势。这一决策得到了AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨头的广泛欢迎,这些公司正通过Ultra Accelerator Link联盟等倡议,共同推动开放标准网络技术的发展,以期对抗NVIDIA在AI网络领域的主导地位。

数据中心的独特设计

阿里云的数据中心采用“Pod”模式,每个Pod可容纳15,000个GPU,与HPN结合,完美匹配了18MW建筑的功率限制。光纤长度的优化设计允许使用成本更低的多模光收发器。尽管HPN的引入增加了布线复杂度,但阿里云已经在探索更高效的设计,如下一代网络架构,预计将配备更高容量的单芯片交换机。

此外,阿里云在数据中心还采用了51.2Tb/s的以太网单芯片交换机,显著提升了网络吞吐量和稳定性,同时降低了能耗。然而,单芯片交换机在运行过程中面临高温难题,市场上缺乏有效散热解决方案。

为此,阿里云自主研发了以更多支柱为中心的均热板散热器,通过优化结构设计,有效控制了芯片温度,确保了交换机的稳定运行。

然而,HPN仍存在一些缺点,最大的缺点是其复杂的布线结构。每个主机有九个NIC,每个NIC连接到两个不同的ToR交换机,这增加了插孔和端口混淆的可能性。尽管如此,这项技术据称比NVlink更经济,从而使任何建立数据中心的机构都能在设置成本上节省大量资金(甚至可能使其避免使用Nvidia技术,特别是在中美芯片战中受到制裁的公司)。

责编:Luffy
阅读全文,请先
您可能感兴趣
美国政府近年来不断出台限制措施,阻止英伟达等企业将GPU产品出售给中国客户,国内互联网及AI大模型企业不得不寻求其他替代品。这对于国产GPU来说即是压力也是动力……
此次被列入实体清单的中国企业涵盖了多个高科技领域,包括但不限于人工智能、半导体以及量子技术等。值得注意的是,这是美国首次将中国的大模型公司(智谱AI)列入实体清单。
英特尔前首席架构师赛莱什·科塔帕利在英特尔担任过多款 Xeon 服务器处理器的首席工程师以及数据中心流程架构的平台工程组总监,近年来高通也一直在寻求进军服务器市场,这预示着高通有望在服务器市场上的进一步发展......
OpenAI认为,芯片、数据、能源和人才是赢得人工智能的关键,且建议美国政府大幅增加对这些领域的投资。
该举措标志着美国政府对先进计算集成电路和封闭式两用AI模型权重的出口控制力度进一步加大,并引入了全新的强制性全球许可制度。
目前,这些故障主要影响了首批搭载Blackwell芯片的机架,从而引发了客户的担忧。其中,微软、亚马逊网络服务公司(AWS)、谷歌和Meta这四大主要客户已经削减了对Blackwell GB200机架的订单。
大多数研发人员和导热界面材料配方设计师可能会推荐使用具备诸多优异特性的硅。然而,也存在一些例外情况。这些问题强调了在选择导热界面材料时考虑终端产品最终应用的重要性.....
在与芯科科技(Silicon Labs)首席技术官Daniel Cooley的交谈中,我们了解到该公司在物联网(IoT)和智能边缘领域所发挥的作用和未来发展。
虽然绕过产品防伪保护的手段变得越来越高级,但是最新的 NFC 芯片技术提高了信息安全性,让品牌能够保护知识产权,预防客户误买假冒商品。
西门子推出Simcenter更新版本,助力客户简化工作流程,加快航空航天认证,同时提供深入洞见
文|温风回顾完过去,再聊聊新的一年,沃尔沃从产品层面,还有哪些亟待解决的问题?首先是纯电高端化的挑战。这不是沃尔沃一家的命题,宝马i5/i7,奔驰EQE/EQS,没有一款对自身旗下传统动力车型产生强烈
近日,荣耀公司高层人事变动频繁,继原CEO赵明因身体原因离职后,荣耀中国区CMO姜海荣、中国区销售部部长郑树宝等多位高管也相继离职。           1月20日,据荣耀内部公告,荣耀中国区CMO姜
“什么是5G,用户说了算”。记得在5G商用之前,当人们都在谈论5G是什么、5G到底能做啥时,这句话引起了业界广泛共鸣——5G建设和发展需倾听用户的声音,以消费者和各行各业日益增长的需求为导向。时至今日
● 第六届半导体湿电化学品与电子气体论坛将于3月19日在杭州召开1月20日消息,据外媒报道,英特尔已成为“某家公司”的收购目标,而特斯拉CEO马斯克被认为是该传闻中英特尔的潜在收购者!据悉,这一收购传
论坛信息名称:第六届半导体湿电子化学品与电子气体论坛时间:2025年3月19日地点:浙江杭州主办方:亚化咨询日程安排3月18日16:30~20:00   会议注册3月19日09:00~12:00   
1月20日消息,据外媒报道,英特尔已成为“某家公司”的收购目标,而特斯拉CEO马斯克被认为是该传闻中英特尔的潜在收购者!据悉,这一收购传闻最早由SemiAccurate报道,该网站称约两个月前读到一封
来源:《中国半导体大硅片年度报告2024》2016 年至 2023 年间,全球半导体硅片(不含 SOI)销售额从 72.09 亿美元上升至121.29 亿美元,年均复合增长率达 7.72%。2016
1月21日,研究机构 Canalys 发布的报告显示,2024 年第四季度,由于厂商在节后调整库存,印度智能手机出货量下降 4%,降至 3720 万台。其中,vivo 以 750 万台的出货量和 20
会议推介2025中国国际LED产业发展大会暨首届JM Insights春茗会 主办单位:JM Insights 支持单位:深圳市平板显示行业协会 论坛时间:2025年2月20日 论坛地址:深圳·国展皇
近日,纳芯微宣布推出全新基于AMR(各向异性磁阻技术)的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏感单元与ASIC技术,能够精准监测车轮转速,为防抱死制动系统(ABS)、车身电子