市场上存在多种计算光模块与GPU比例的方法,导致结果不相同。造成这些差异的主要原因是不同网络结构中光模块数量的波动。所需的光模块的准确数量主要取决于几个关键因素。
国产AI算力行业报告:浪潮汹涌,势不可挡(2024)2024中国“百模大战”竞争格局分析报告(2024)AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
英伟达官宣新一代Blackwell架构,华为算力GPU需求破百万片GPU深度报告:英伟达GB200 NVL72全互联技术,铜缆方案或将成为未来趋势?英伟达发布新一代GPU架构,NVLink连接技术迭代升级
大模型语言模型:从理论到实践
技术展望2024:AI拐点,重塑人类潜力
大视研究:中国人工智能(AI)2024各行业应用研究报告英伟达GTC专题:新一代GPU、具身智能和AI应用
AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
GPU深度报告:英伟达GB200 NVL72全互联技术,铜缆方案或将成为未来趋势?
人工智能系列专题报告:CoWoS技术引领先进封装,国内OSAT有望受益
软硬件融合:从DPU到超异构计算
《大模型技术能力测评合集》
1、大模型时代,智算网络性能评测挑战
2、AIGC通用大模型产品测评篇(2023)
3、人工智能大模型工业应用准确性测评
4、甲子星空坐标系:AIGC通用大模型产品测评篇
5、AIGC通用大模型产品测评篇(2023)
6、2023年中国大模型行研能力评测
1、新型智算中心算力池化技术白皮书
2、智算中心网络架构白皮书
3、面向AI大模型的智算中心网络演进白皮书
4、智算赋能算网新应用白皮书
14份半导体“AI的iPhone时刻”深度系列报告合集
12份走进“芯”时代系列深度报告合集
主要包括两个网卡,ConnectX-6 (200Gb/s,主要用于A100)和ConnectX-7 (400Gb/s,主要用于H100)。
同时,下一代ConnectX-8800Gb/s预计将于2024年发布。交换机型号
主要包括两种类型的交换机,QM 9700交换机(32口OSFP 2x400Gb/s),共64通道400Gb/s传输速率,总吞吐率达到51.2Tb/s。而QM8700交换机(40口QSFP56,共40个通道,传输速率为200Gb/s,总吞吐率为16Tb/s)。单元数量(可扩展单元)
单元数量决定了交换机网络架构的配置。小批量采用两层结构,而大批量采用三层结构。H100 SuperPOD:每台由32个节点(DGX H100服务器)组成,最多支持4台组成集群,采用双层交换架构。A100 SuperPOD:每台由20个节点(DGX A100服务器)组成,最多支持7台组成集群。如果单元数超过5个,则需要三层交换架构。四大网络配置下的光模块需求
A100+ConnectX6+QM8700三层网络:比例1:6,全部采用200G光模块。A100+ConnectX6+QM9700两层网络:1:0.75的800G光模块+1:1的200G光模块。H100+ConnectX7+QM9700两层网络:1:1.5的800G光模块+1:1的400G光模块。H100+ConnectX8(尚未发布)+QM9700三层网络:比例1:6,全部采用800G光模块。假设2023年H100出货量为30万台,A100出货量为90万台,总需求量为315万台200G、30万台400G、787.5万台800G光模块。这会导致人工智能市场的显著增长,预计规模将达到13.8亿美元以2024年出货150万台H100和150万台A100为例,200G总需求量为75万台,400G光模块75万台,800G光模块675万台。这将导致人工智能市场的显著增长,预计规模将达到49.7亿美元,大约相当于2021年光模块行业的总市场规模。第一种情况:A100+ConnectX6+QM8700三层网络
A100 GPU设计有8个计算接口,如图所示,左侧有4个接口,右侧有4个接口。目前,A100 GPU的大部分出货量都是与ConnectX-6配合使用,以实现高达200Gb/s的连接速率。在首层架构中,每个节点有8个接口(端口),节点连接8个叶交换机。每20个节点组成一个单元(SU)。因此,在第一层中,总共需要8xSU台叶交换机,以及8xSUx20根线缆和2x8xSUx20个200G光模块。在第二层架构中,由于采用了无阻塞设计,上行速率等于下行速率。在第一层中,总单向传输速率为200G乘以线缆数量。由于第二层也采用单缆200G传输速率,因此第二层的线缆数量应与第一层相同,需要8xSUx20线缆和2x8xSUx20 200G光模块。所需脊交换机的数量是通过将线缆数量除以叶交换机数量来计算的,得出所需的(8xSUx200)/(8xSU)脊交换机。但是,当没有足够的叶交换机时,为了节省脊交换机的数量,可以在叶和脊交换机之间建立多个连接(只要不超过40个接口的限制)。因此,当单元数为1/2/4/5时,所需的脊交换机数量为4/10/20/20,所需的光模块数量为320/640/1280/1600。脊交换机的数量不会成比例增加,但光模块的数量会按相同比例增加。当系统扩展到七个单元时,实施第三层架构变得至关重要。由于其非阻塞配置,第三层中所需的线缆数量与第二层的线缆数量保持不变。英伟达(NVIDIA)建议的SuperPOD蓝图需要在七个单元之间集成网络,采用第三层架构及核心交换机。详细的图表说明了不同层的不同数量的交换机以及不同单元数所需的相关布线。配置140台服务器,参与的A100 GPU总数为1120,计算方式为服务器数量140乘以8。为了支持此配置,需要部署了140台QM8790交换机以及3360根线缆。此外,该配置需要使用6720个200G光模块 。A100 GPU与200G光模块的比例为1:6,具体数量为1120个GPU对应6720个光模块。第二种情况:A100+ConnectX6+QM9700两层网络
目前,该配置方案并不是建议配置的一种。尽管如此,随着时间的推移,越来越多的A100 GPU可能会选择通过QM9700交换机进行连接。这种转变将减少所需光模块数量,但会产生对800G光模块的需求。主要区别可以在第一层的连接中看到,目前使用8根独立200G线缆的方法将被使用QSFP转OSFP适配器替代,每个适配器能够进行两个连接,从而实现1对4的连接。在第一层中:对于具有7个单元和140个服务器的集群,总共有140x8=1120个接口。这相当于280根1-4线缆,因此需要280个800G和1120个200G光模块。总共需要12台QM9700交换机。在第二层:仅使用800G连接时,需要280x2=5600个800G光模块以及9台QM 9700交换机。因此,对于140台服务器和1120台A100 GPU配置,总共需要21台交换机(12+9),以及840个800G光模块和1120个200G光模块。A100 GPU与800G光模块的比例为1120:840,简化为1:0.75。A1000 GPU和200G光模块的比例为1:1。第三种情况:H100+ConnectX7+QM9700两层网络
H100架构的一个显著特点是,尽管该卡包含8个GPU,但配备了8个400G网卡,这些网卡组合成4个800G接口。这种融合带来了对800G光模块的巨大需求。在第一层中,根据英伟达(NVIDIA)推荐的配置,建议在服务器接口连接1个800G光模块。这可以通过使用带有两根光缆(MPO)的双端口连接来实现,其中每根光缆都插入单独的交换机。因此,在第一层中,每个单元由32台服务器组成,每台服务器连接2x4=8台交换机。在具有4个单元的SuperkPOD中,第一层总共需要4x8=32台叶交换机。英伟达(NVIDIA)建议为管理目的(UFM)保留一个节点。由于对光模块的使用影响有限,因此我们以4台设备、总共128台服务器为基准进行近似计算。第一层共需要4x128=512个800G光模块和2x4x128=1024个400G光模块。在第二层,交换机使用800G光模块直接连接。每个叶交换机都以32x400G的单向速率向下连接。为保证上行和下行速率一致,上行连接需要16x800G的单向速率。这需要16个脊交换机,因此总共需要4x8x162=1024个800G光模块。在这种架构中,基础设施总共需要1536个800G光模块和1024个400G光模块。考虑到SuperPOD的完整组成,其中包括128台(4x32)服务器,每台服务器配备8个H100 GPU,总共有1024个H100 GPU。GPU与800G光模块的比例为1:1.5,相当于1024个GPU需要1536个光模块。GPU与400G光模块的比例为1:1,1024个GPU与1024个光模块的数量相等。第四种情况:H100+ConnectX8(暂未发布)+QM9700三层网络
在假设的情景中,如果H100GPU的网卡升级到800G,那么外部接口就需要从四个扩展到八个OSFP接口。因此,层间连接也将使用800G光模块。基本网络设计与初始方案保持一致,唯一的变化是将200G光模块替换为800G光模块。在此网络架构内,GPU数量与所需光模块保持1:65的比例,与初始场景相同。基于上述情况整理,假如2023年H100 GPU的出货量为300000个,A100 GPU的出货量为900000个,将产生315万个200G光模块、300000个400G光模块和787500个800G光模块的总需求。展望2024年,预计交付150万台H100 GPU和150万台A100 GPU,产生需求将包括75万台200G光模块、75万台400G光模块和675万台800G光模块。对于A100 GPU,其连接均匀分配在200G交换机和400G交换机之间。对于H100 GPU,其连接均匀分配在200G交换机和400G交换机之间。综上所述
随着技术的不断进步和发展,网络领域见证了400G多模光模块、AOC和DAC的出现。预计这些将引领高速解决方案进一步的发展,为数字时代的网络需求提供强大的支持。相关阅读:
InfiniBand,撼动不了以太网?
英伟达Quantum-2 Infiniband平台技术A&Q
一颗Jericho3-AI芯片,用来替代InfiniBand?
RoCE技术在HPC中的应用分析
3、配置 InfiniBand 和 RDMA 网络.pdf 6、面向分布式 AI智能网卡低延迟Fabric技术.pdf7、NVMe存储SPDK 加速前后端 IO.pdf8、基于RDMA多播机制的分布式持久性内存文件系统.pdf《NVIDIA InfiniBand网络技术新特性(2023)》1、NVIDIA InfiniBand-NDR Q&A2、NVIDIA Infiniband Networking Update 2023Hyperion Research:SC22 HPC Market Update(2022.11)
Hyperion Research:ISC22 Market Update(2022.5)
Intersect360全球HPC-AI市场报告(2022—2026)
Intersect360 AMD CPU和GPU调研白皮书
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。