智算中心网络架构设计实践

智能计算芯世界 2023-10-20 07:53 2005浏览 0评论 0点赞

从清华教授到企业高管，这场大会把 MATLAB/Simulink 前沿应用讲透了 热风险清零！西门子EDA黑科技，让3D IC散热设计稳如泰

传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的，流量主要是从数据中心到最终客户，即以南北向流量为主，云内部东西向流量为辅。承载 VPC 网络的底层物理网络架构，对于承载智算业务存在如下挑战。

本文选自“智算中心网络架构白皮书（2023）”“智能计算中心规划建设指南”，对传统网络与智算网络、两层胖树、三次胖树及全面的分析对比，并介绍了组网最佳实践。

有阻塞网络：考虑到并非所有服务器都会同时对外产生流量，为了控制网络建设成本， Leaf 交换机的下联带宽和上联带宽并非按照 1：1 设计，而是存在收敛比。一般上联带宽仅有下联带宽的三分之一。

云内部流量时延相对较高：跨 Leaf 交换机的两台服务器互访需要经过 Spine 交换机，转发路径有 3 跳。

带宽不够大：一般情况下单物理机只有一张网卡接入 VPC 网络，单张网卡的带宽比较有限，当前较大范围商用的网卡带宽一般都不大于 200Gbps。

对于智算场景，当前比较好的实践是独立建一张高性能网络来承载智算业务，满足大带宽，低时延，无损的需求。

大带宽的设计

智算服务器可以满配 8 张 GPU 卡，并预留 8 个 PCIe 网卡插槽。在多机组建 GPU 集群时，两个 GPU 跨机互通的突发带宽有可能会大于 50Gbps。因此，一般会给每个 GPU 关联一个至少 100Gbps 的网络端口。在这种场景下可以配置 4张 2*100Gbps 的网卡，也可以配置 8 张 1*100Gbps 的网卡，当然也可以配置 8 张单端口 200/400Gbps 的网卡。

无阻塞设计

无阻塞网络设计的关键是采用 Fat-Tree（胖树）网络架构。交换机下联和上联带宽采用 1：1 无收敛设计，即如果下联有64 个 100Gbps 的端口，那么上联也有 64 个 100Gbps 的端口。

此外交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。

低时延设计 AI-Pool

在低时延网络架构设计方面，百度智能云实践和落地了基于导轨（Rail）优化的 AI-Pool 网络方案。在这个网络方案中，8 个接入交换机为一组，构成一个 AI-Pool。以两层交换机组网架构为例，这种网络架构能做到同 AI-Pool 的不同智算节点的 GPU 互访仅需一跳。

在 AI-Pool 网络架构中，不同智算节点间相同编号的网口需要连接到同一台交换机。如智算节点 1 的 1 号 RDMA 网口，智算节点 2 的 1 号 RDMA 网口直到智算节点 P/2 的 1 号 RDMA 网口都连到 1 号交换机。

在智算节点内部，上层通信库基于机内网络拓扑进行网络匹配，让相同编号的 GPU 卡和相同编号的网口关联。这样相同GPU 编号的两台智算节点间仅一跳就可互通。

不同GPU编号的智算节点间，借助NCCL通信库中的Rail Local技术，可以充分利用主机内GPU间的NVSwitch的带宽，将多机间的跨卡号互通转换为跨机间的同GPU卡号的互通。

对于跨 AI-Pool 的两台物理机的互通，需要过汇聚交换机，此时会有 3 跳。

网络可承载的 GPU 卡的规模和所采用交换机的端口密度、网络架构相关。网络的层次多，承载的 GPU 卡的规模会变大，但转发的跳数和时延也会变大，需要结合实际业务情况进行权衡。

两层胖树架构

8 台接入交换机组成一个智算资源池 AI-Pool。图中 P 代表单台交换机的端口数。单台交换机最大可下联和上联的端口为P/2 个，即单台交换机最多可以下联 P/2 台服务器和 P/2 台交换机。两层胖树网络可以接入 P*P/2 张 GPU 卡。

三层胖树架构

三层网络架构中会新增汇聚交换机组和核心交换机组。每个组里面的最大交换机数量为 P/2。汇聚交换机组最大数量为 8，核心交换机组的最大数量为 P/2。三层胖树网络可以接入 P*（P/2）*（P/2）=P*P*P/4 张 GPU 卡。

在三层胖树组网中，InfiniBand 的 40 端口的 200Gbps HDR 交换机能容纳的最多 GPU 数量是 16000。这个 16000GPU 卡的规模也是目前 InfiniBand 当前在国内实际应用的 GPU 集群的最大规模网络，当前这个记录被百度保持。

两层和三层胖树网络架构的对比

可容纳的 GPU 卡的规模

两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同。在下图中 N 代表 GPU 卡的规模，P 代表单台交换机的端口数量。比如对于端口数为 40 的交换机，两层胖树架构可容纳的 GPU 卡的数量是 800 卡，三层胖树架构可容纳的 GPU 卡的数量是 16000 卡。

转发路径

两层胖树和三层胖树网络架构另外一个区别是任意两个节点的网络转发路径的跳数不同。

对于同智算资源池 AI-Pool 的两层胖树架构，智算节点间同 GPU 卡号转发跳数为 1 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 3 跳。

对于同智算资源池 AI-Pool 的三层胖树架构，智算节点间同 GPU 卡号转发跳数为 3 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 5 跳。

典型实践

不同型号的 InfiniBand/RoCE 交换机和不同的网络架构下所支持的 GPU 的规模不同。结合当前已成熟商用的交换机，我们推荐几种物理网络架构的规格供客户选择。

Regular：InfiniBand 两层胖树网络架构，基于 InfiniBand HDR 交换机，单集群最大支持 800 张 GPU 卡。

Large：RoCE 两层胖树网络架构，基于 128 端口 100G 数据中心以太交换机，单集群最大支持 8192 张 GPU 卡。

XLarge：InfiniBand 三层胖树网络架构，基于 InfiniBand HDR 交换机，单集群最大支持 16000 张 GPU 卡。

XXLarge：基于 InfiniBand Quantum-2 交换机或同等性能的以太网数据中心交换机，采用三层胖树网络架构，单集群最大支持 100000 张 GPU 卡。

Large智算物理网络架构实践

支撑上层创新应用和算法落地的关键环节之一是底层的算力，而支撑智算集群的算力发挥其最大效用的关键之一是高性能网络。度小满的单个智算集群的规模可达 8192 张 GPU 卡，在每个智算集群内部的智算资源池 AI-Pool 中可支持 512张 GPU 卡。通过无阻塞、低时延、高可靠的网络设计，高效的支撑了上层智算应用的快速迭代和发展。

XLarge智算物理网络架构实践

为了实现更高的集群运行性能，百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。该网络已稳定运行多年，2021 年建设之初就直接采用了 200Gbps 的 InfiniBand HDR 交换机，单台 GPU 服务器的对外通信带宽为1.6Tbps。

本文选自“智算中心网络架构白皮书（2023）”“智能计算中心规划建设指南”，更多智算中心技术请参考“算力铸就大模型：超算、智算及数据中心行业报告（2023）、2023年高性能计算研讨合集（上）、2023年高性能计算研讨合集（下）、AI基础知识深度专题详解合集等”。

下载链接：

电子行业研究：什么是空间计算平台？

电子行业研究框架（2023）

《人工智能大模型专题研究合集》

1、人工智能专题研究（1）：大模型推动各行业AI应用渗透 2、人工智能专题研究（2）：AI大模型打开AI芯片、光模块和光芯片需求

《AI专题研究报告合集》

1、AI系列专题研究报告：台股AI服务器启示录（2023） 2、AI专题研究报告：AI算力研究框架（2023）

智算中心网络架构白皮书（2023）

华为产业链深度系列研究合集（2023）

2023年AI开发平台词条报告

鸿蒙生态应用开发白皮书

2023年中国人工智能行业概览

《AIGC行业深度报告系列合集》

《70+篇半导体行业“研究框架”合集》

330份重磅ChatGPT专业报告

《人工智能AI大模型技术合集》

《56份GPU技术及白皮书汇总》

《FPGA五问五答系列合集》

《机器人行业报告合集（2023）》

1、机器人行业报告：人形机器人产业分析，寻找供应链隐形冠军 2、AI驱动虚拟人产业升级，应用场景进一步扩展 3、AI赋能人形机器人产业提升，把握产业链受益机会 4、扣紧产业链安全，机器人滚动功能部件国产化势在必行

《计算机系统结构合集》

1、计算机系统结构：概述 2、计算机系统结构：基本概念 3、计算机系统结构：指令系统 4、计算机系统结构：存储系统 5、计算机系统结构：IO系统 6、计算机系统结构：标量处理机 7、计算机系统结构：向量处理机

“九州”算力光网目标架构白皮书

《集成电路及芯片知识汇总（2）》

9、芯片和芯片设计——集成电路设计科普

10、集成电路EDA设计概述

11、超大规模集成电路设计

12、常用半导体器件讲解

13、半导体制程简介

14、SOC芯片设计

15、ASIC芯片设计生产流程

16、CAN总线详细讲解

《集成电路及芯片知识汇总（1）》

1、集成电路技术简介

2、芯片设计实现介绍

3、集成电路芯片设计

4、芯片规划与设计

5、数字IC芯片设计

6、集成电路设计的现状与未来

7、集成电路基础知识

8、集成电路版图设计

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1690篇粉丝：209人

关注  私信

智算中心网络架构设计实践

最近文章

热门文章

推荐

最新资讯