AI数据中心(AIDC):网络系统选择

智能计算芯世界 2024-12-14 10:43

随着模型参数量的提高,其对算力和显存都提出了更高的要求。以GPT3为例,千亿参数需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,以现在单卡的算力也要 32 年才能完成训练。为了缩短训练时间,就需要采用多机多卡并行的方式,通过采用分布式训练技术,对模型和数据进行切分,进而并行加速,将训练市场缩短到周或天的级别(更多内容参考自“AI数据中心(AIDC)建设白皮书合集”)。
下载地址:
《AI数据中心(AIDC)建设白皮书合集》
1、超云AIDC基础设施建设白皮书(2024)
2、华为AIDC白皮书(2024)
《2024中国算力大会技术合集》
中国算力大会:中国算力发展报告(2024年) 中国算力大会:中国存力发展报告(2024年)
特斯拉、OpenAI、英伟达和华为人形机器人生态简析
2024年半导体+算力+通信+数据中心产业链全景
自动驾驶软硬一体演进趋势研究报告
英伟达人工智能行业发展战略研究报告
AIGC行业全景篇:算力、模型与应用的创新融合
2024年中国智能算力行业白皮书
《AIGC行业研究报告合集(最新版)》
1、AIGC发展研究3.0发布版(2024.11) 2、2024年全球AIGC产业全景报告(2024.11)
2025中国AIoT产业全景图谱报告(2024)
DeepSeek发布中国版o1推理模型,海外量子密集突破
《大模型微调技术实践合集》
AIGC算力全景及趋势报告(精华)
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)

800+份重磅ChatGPT专业报告


为了最大化分布式训练的效能,就需要构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。

而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、高带宽、长期稳定性、大规模扩展性和可运维等关键能力。

AIDC的网络选型

当前 AIDC 的大规模网络架构主要有两种,一种是InfniBand网络,一种是 RoCE 网络,二者各有优势。

InfniBand网络

InfniBand网络自从诞生以来就专注于高性能领域,当前市场主流的 IB 技术为 400Gbps 的 NDR。IB 网络是专门为超算集群设计的网络,它有两个特点:

原生无损网络 :InfniBand 网络采用基于 credit 信令机制来从根本上避免缓冲区溢出丢包。只有在确认对方有额度能接收对应数量的报文后,发送端才会启动报文发送。依靠这一链路级的流控机制,可以确保发送端绝不会发送过量,网络中不会产生缓冲区溢出丢包。

万卡扩展能力 : InfniBand 的 Adaptive Routing 基于逐包的动态路由,在超大规模组网的情况下保证网络最优利用。

目前业内有大量万卡规模超大 GPU 集群的 IB 案例。

RoCE网络

RoCE(RDMA over Converged Ethernet)是在 InfniBand Trade Association(IBTA)标准中定义的网络协议,

允许通过以太网络使用 RDMA(Remote Direct Memory Access,远程直接访问内存)。简而言之,它可以看作是RDMA 技术在超融合数据中心、云、存储和虚拟化环境中的应用。RoCE 网络的特点如下:

生态开放:RoCE 生态基于成熟的以太网技术体系,业界支持厂商众多。相比于 IB 交换系统,RoCE 网络不需要专用硬件,可以基于多厂商开放的硬件网卡 / 交换机等进行部署。同时业务的开通、运维与传统以太网技术一脉相承,配置、维护更为简单。

速率更快:以太网技术广泛应用于数据中心网络、城域网、骨干网,当前速率可以灵活支持 1Gbps~800Gbps,未来有望演进至 1.6Tbps。与 IB 相比,在互联端口速率和交换机总容量上更胜一筹。

成本较低:以太网高端芯片经过多年的技术发展积累,其单位带宽成本更具竞争力,交换机成本整体更低。

具体到实际业务层面,InfniBand 方案一般要优于 RoCE 方案,RoCEv2 是足够好的方案,而 InfniBand 是特别好的方案,以下将从业务层面对比下这两种方案。

业务性能方面,由于 InfniBand 的端到端时延小于 RoCEv2,所以基于 InfniBand 构建的网络在应用层业务性能方面占优。但 RoCEv2 的性能也能满足绝大部分智算场景的业务性能要求。

业务规模方面,InfniBand 能支持单集群万卡 GPU 规模,且保证整体性能不下降,并且在业界有比较多的商用实践案例。

RoCEv2 网络能在单集群支持千卡规模且整体网络性能也无太大的降低。

业务运维方面,InfniBand 较 RoCEv2 更成熟,包括多租户隔离能力,运维诊断能力等。

业务成本方面,InfniBand 的成本要高于 RoCEv2,主要是 InfniBand 交换机的成本要比以太交换机高一些。

业务供应商方面,InfniBand 的供应商主要以 NVIDIA 为主,RoCEv2 的供应商较多。

AIDC的网络设计

面对 AIDC 对网络的高要求,通常情况下独立建一张高性能网络来承载智算业务是最好的方案,可同时满足高带宽、无阻塞的需求。

高带宽设计:当前大模型 AI 训练中会涉及大量的数据交互,对带宽有着极高的要求。目前智算服务器主流配置是配置8 张 GPU,并预留一定数量的 PCIe 插槽用于网络设备,视智算集群的网络需求会配置 4 张 100Gbps 以上的网卡,极端情况下甚至会配置 8 张以上的 100Gbps 以上的网卡。尤其是针对 NVLink 机型,当前主流方案是按照 GPU:IB 网卡 1:1 的模式来配置网卡,这种情况下每台机器会配置 8 张 HDR 甚至是 NDR 的网卡以满足 AI 训练中的高带宽需求。

无阻塞设计:无阻塞网络设计的关键是采用 Fat-Tree(胖树)网络架构。交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有 20 个 200Gbps 的端口,那么上联也有 20 个 200Gbps 的端口。此外交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。

低延时设计AI-Pool:当前用于 AI 大模型训练的集群通常会采用支持 NVLink+NVSwitch 的 GPU 机型,这样节点内不同编号的 GPU 间可借助 NCCL 通信库中的 RailLocal 技术,可以充分利用主机内 GPU 间的 NVSwitch 的带宽,基于此我们可以优化网络架构,将 8 个节点和 8 个接入交换机作为一组,构成 AI-pool,如此同一个组内不同节点的同编号GPU 之间通讯只需要经过 1 跳就可到达,从而大幅度降低通讯延迟。

智算胖树网络设计

网络可承载的 GPU 卡的规模和所采用交换机的端口密度、网络架构相关。网络的层次多,承载的 GPU 卡的规模会变大,但转发的跳数和时延也会变大,需要结合实际业务情况进行权衡。

当节点数量超过交换机的端口数时,为了保证节点之间无阻塞通讯,就需要组成胖树架构,两层胖树架构如图所示,图中 N 代表单台交换机的端口数。单台交换机最大可下联和上联的端口为 N/2 个,即单台交换机最多可以下联 N/2 台服务器和 N/2 台交换机。两层胖树网络可以接入 N*N/2 个节点。

对于采用 8 卡 NVLink+NVSwitch 机型的节点我们可以对二层胖树进行优化,8 个节点为一组采用 AI-pool 的设计模式,如图所示,采用该架构可优化节点间同编号 GPU 的通讯效率,最大可支持 N*N/2 张 GPU 卡互联。

当三层网络架构中会新增汇聚交换机组和核心交换机组。三层胖树架构如图3-11所示,图中N代表单台交换机的端口数,每个组里面的最大交换机数量为N/2。三层胖树网络可以接入N*(N/2)*(N/2)=N*N*N/4个节点。

综上,两层胖树和三层胖树最重要的区别是可以容纳的GPU卡的规模不同。以端口数为40的交换机为例,两层胖树架构最大可容纳的GPU卡的数量是800张卡,三层胖树架构最大可容纳的GPU卡的数量是16000张卡。

来源:超云AIDC基础设施建设白皮书(2024)
下载链接:
谷歌TPU:为更专业的AI计算而生
《2024智算中心算力技术白皮书合集》
1、2024智算中心基础设施演进白皮书 2、2024年中国智能算力行业白皮书
2024年全球人工智能现状全景报告
2024年智能传感器产业:前景机遇与技术趋势探析报告
《2024年AI算力“卖水人”系列报告合集》
1、AI算力“卖水人”系列(1):2024年互联网AI开支持续提升 2、AI算力“卖水人”系列(2):芯片散热从风冷到液冷,AI驱动产业革新
3、AI算力“卖水人”系列(3):NVIDIA GB200:重塑服务器、铜缆、液冷、HBM分析
《数据中心技术与趋势合集》
1、中伦互联网数据中心全解读 2、中国第三方数据中心服务商分析报告 3、面向AI 智算数据中心网络架构与连接技术的发展路线展望 4、新一代智算数据中心基础设施技术白皮书 5、中国数据中心产业发展白皮书
《2024全球人工智能开发与应用大会》
1、大语言模型在计算机视觉领域的应用 2、大模型的异构计算和加速 3、大模型辅助需求代码开发 4、大模型在华为推荐场景中的探索和应用 5、大模型在推荐系统中的落地实践 6、大语言模型的幻觉检测 7、大语言模型在法律领域的应用探索
《2024全球人工智能开发与应用大会(下)》
《2024全球人工智能开发与应用大会(上)》
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
《AI算力“卖水人”系列报告合集》
1、AI算力卖水人系列(1):2024年互联网AI开支持续提升 2、AI算力卖水人系列(2):芯片散热从风冷到液冷,AI驱动产业革新

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 在现代软件开发领域,效率和可靠性是企业在竞争中取胜的关键。本文将深入探讨 ANA Systems 如何通过引入业界领先的 CI/CD 平台——CircleCI,克服传统开发流程的瓶颈,实现开发运营效率的全面提升。同时,本文还将详细解析 CircleCI 的核心优势,包括其强大的自动化功能、广泛的工具整合能力,以及为企业量身定制的支持服务,揭示其如何助力 ANA Systems 在「新一代国内旅客项目」中脱颖而出。这一案例将为企业优化开发流程、提升竞争力提供重要的实践参考。ANA Systems
    艾体宝IT 2024-12-16 16:44 94浏览
  • 擎天柱,这个名字听起来就像是从科幻电影里走出来的英雄。但今天,我们要聊的不是那个变形金刚,而是一款同样令人兴奋的实验板——Ai8051U-LQFP48 转 89C52-DIP40 核心功能实验板。这款实验板就像是电子世界的“擎天柱”,它拥有强大的力量和无限的潜力,等待着我们去发掘和探索。 想象一下,你手中握着的不是一块普通的电路板,而是一张通往未来科技世界的门票。Ai8051U芯片,这颗强大的心脏,内置了硬件浮点运算单元(TFPU@120MHz),让你的计算速度飞起来,就像给机器人装上了翅膀。
    丙丁先生 2024-12-16 13:02 94浏览
  • 一、引言在数字化时代,芯片作为现代科技的核心,其制造过程却常被视作神秘的黑箱。菊地正典的《大话芯片制造》为我们揭开了这层神秘的面纱,以通俗易懂的方式,全面系统地介绍了芯片制造的各个环节。作为一名电子信息技术专业的教育工作者,我深感这本书不仅为学生提供了宝贵的知识资源,也让我对芯片制造及其在现代社会中的作用有了更深刻的理解。二、生活中的芯片印记芯片的影响渗透到我们日常生活的每一个角落。从智能手机的闹钟唤醒,到交通卡的便捷支付,再到智能家居的智能化功能,芯片以其强大的运算和处理能力,为我们的现代生活
    月光 2024-12-16 11:52 71浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-14 20:56 70浏览
  • 概述 Cyclone 10 GX器件的ALM结构与Cyclone V类似,所以在Cyclone 10 GX器件上实现TDC功能理论上是可以完全参考甚至移植自Cyclone V系列的成功案例。但是,现实却是更多的问题出现当在Cyclone 10 GX使用和Cyclone V同样策略实现TDC的时候。 本文主要记录在Cyclone 10 GX器件上实现TDC时的探索,并为后续TDC设计、测试等展开前期研究。Cyclone 10 GX ALM结构 如图1所示,Cyclone 10 GX器件的ALM结构
    coyoo 2024-12-14 17:15 81浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)于10月23日在深圳益田威斯汀酒店举办了艾迈斯欧司朗中国发展中心(以下简称,CDC)圆桌论坛。本次论坛以“智能化时代,以多元应用场景和技术 助力中国市场加速发展”为核心议题,探讨在人工智能驱动的市场趋势下,CDC如何助力中国伙伴把握时代机遇,推动大中华地区业务稳健增长,展示了艾迈斯欧司朗对中国市场的信心。立足中国 贴近本土客户需求在全球经济增速放缓和国际形势复杂多变的背景下,中国市场依然保持了稳定的增长势态,并释放出强大的
    艾迈斯欧司朗 2024-12-16 18:00 107浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-13 23:20 62浏览
  • 串口调试助手软件:XCOM 也是一款专为嵌入式开发和硬件调试设计的强大工具,如正点原子串口调试助手 XCOM V2.6。这款软件支持多种串口参数配置,满足不同开发需求,广泛应用于嵌入式系统开发、硬件调试以及电子爱好者的项目开发中。XCOM在嵌入式开发和硬件调试中的作用主要体现在以下几个方面: 1. 串口通信测试:XCOM作为一款强大的串口调试工具,允许用户通过计算机的串口进行数据的发送与接收,从而实现对串口通信的测试。这对于验证硬件设备的通信协议、确保数据传输的正确性至关重要。 2. 数据发
    丙丁先生 2024-12-15 11:56 74浏览
  • 在现代生活中,我们经常会遇到需要检测电线是否带电的情况。这时,一款好用的数显测电笔就显得尤为重要了。今天,我想跟大家分享一下DELIXI数显测电笔的使用方法,通过一个故事来讲述它如何帮助我们解决生活中的小麻烦。 在一个阳光明媚的周末,小明决定对他家的电路进行一次全面的检查。他知道,虽然自己不是专业的电工,但有了DELIXI数显测电笔的帮助,他也能轻松应对。 小明拿出了DELIXI数显测电笔,这款测电笔设计得非常人性化,操作起来也很简单。他首先注意到了测电笔上的两个按键:DIRECT(A键)和
    丙丁先生 2024-12-16 12:58 65浏览
  • 霍尔传感器的原理        霍尔传感器是一种固体的传感器,其输出电压与磁场强度成比例。顾名思 义,这种器件是依赖于霍尔效应原理工作的。霍尔效应原理是在导体通电 和加有磁场的情况下,在导体的横向 上会产生电压。电子(在实践中多数载流子最常被使 用)在外部电场的驱动下会产生“漂移”,当暴露于磁场中时,这些运动 的带电粒子会受到一个垂直于电场和 磁场的力的作用。这个力会让导体的边缘充电,一边为正,一边为负。边
    锦正茂科技 2024-12-14 11:41 67浏览
  •        霍尔传感器是一种基于霍尔效应的传感器。霍尔效应指的是当通过一个导体的电流受到外部磁场的影响时,导体内部将会产生一种电场,使得在导体两端的电势差发生变化,这种电势差变化称为霍尔电势差。利用这种现象,可以设计出一种可以测量磁场强度和方向的传感器,即霍尔传感器。  霍尔传感器分为线型霍尔传感器和开关型霍尔传感器两种。  (一)开关型霍尔传感器由稳压器、霍尔元件、差分放大器,斯密特触发器和输出级组成,它输出数字量。开关型霍尔传感器还有一种特
    锦正茂科技 2024-12-14 10:58 63浏览
  • 家用国产固态继电器(SSR)已成为各行各业的基石,性能可靠、设计紧凑、效率高。这些先进的开关设备取代了传统的机电继电器,具有静音运行、使用寿命更长、可靠性更高等诸多优点。家用SSR专为从工业自动化到家用电器等各种应用而设计,展示了本地制造商的独创性和竞争力。国产固态继电器特点和优势家用SSR采用半导体技术制造,与传统继电器相比,具有很强的耐磨性。主要特点包括:静音无振动运行:SSR使用半导体元件进行开关,消除了机械噪音。响应时间快:是工业控制系统中高速开关的理想选择。耐用性:没有移动部件,即使在
    克里雅半导体科技 2024-12-13 16:49 50浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦