AI时代的网络：网络定义数据中心

智能计算芯世界 2024-09-09 08:19 713浏览 0评论 0点赞

揭秘实时频谱分析的黑科技原理 TOLG 技术采用超紧凑的海鸥翼式引脚设计

本文来自“《AI时代的网络：网络定义数据中心》”，如今，我们面临着新型数据中心的崛起：AI 云和 AI工厂，它们需要加速计算和高性能网络来支持人工智能（AI）。因此，当今的超大规模数据中心的部署格局正在发生巨大变化。随着 GPU加速计算架构的广泛应用，AI研究人员和从业者可以利用分布式加速计算的强大功能，若没有高性能网络的支持，这样大规模的高性能计算将是不可想象的。

因为数据中心进行分布式 AI模型训练和生成式 AI，这需要强大的网络连接数量众多的 GPU 节点进行计算，所以，数据中心的网络正在引领着 AI 时代的进步。

下载链接：

《2024世界机器人大会：人形机器人十大趋势展望》

《AI时代的网络：网络定义数据中心》

2024年中国智算产业生态图谱

《HotChips 2024大会技术合集（1）》

《HotChips 2024大会技术合集（2）》

《HotChips 2024大会技术合集（3）》

《HotChips 2024大会技术合集（4）》

《HotChips 2024大会技术合集（5）》

《HotChips 2024大会技术合集（6）》

《HotChips 2024大会技术合集（7）》

《HotChips 2024大会技术合集（8）》

机器人专题研究：产业发展概览（2024）

国产AI算力行业报告：浪潮汹涌，势不可挡（2024）

机器人专题研究：产业发展概览（2024）

AI 是一个分布式计算问题

传统数据中心将所有计算资源（包括服务器、存储和网络）集中在供服务一起集中使用提。对于分布式计算则是利用多个通过网络互连服务器或节点协同工作以执行任务。在此模型中，工作负载分布在各种机器上，并通过高速、低时延的网络连接在一起。

部署生成式 AI 应用程序或训练基础ChatGPT、BERT 或 DALL-E 等复杂大AI 模型需要大量的计算资源，对于模型尤其如此。随着数据量和模型大小的增加，我们采用分布式计算来应对这一挑战。它通过在多个互连的计算节点之间分配工作负载来加速训练过程。单个分布式任务的总体运行时间受最慢参与节点的运行时间所制约。

网络在确保消息及时到达所有参与节点这方面就发挥着重要作用。在这种状态下，尾部延迟（即最后参与消息的到达时间）变得非常重要，尤其是在大规模数据中心部署和存在竞争工作负载的情况下，训练大型AI模型需要越来越多的计算节点处理大量数据的情况下，需要的网络规模越大，对尾部时延的要求也就越高。

为AI构建网络

在评估数据中心采用AI 的网络架构时，应将其视为统一的端到端解决方案，并将服务分布式计算作为首要考虑因素，兼顾实现数据中心的性能、成本和价值，以及满足分布式计算所需通信库的技术需求。

无损网络与RDMA

在有损网络中，数据传输时随时可能会发生数据包丢失而导致速率下降。网络优先考虑数据传输完整性，而不是性能。为 AI 部署有损网络将在性能、GPU利用率、功耗等方面带来严重的损害。

在无损网络中，数据传输不会出现任何丢失或损坏。网络可确保所有数据包准确到达目的地，并且在传输过程中不会丢失任何信息。InfiniBand网络是原生的无损网络，一直是大规模部署的事实标准。

虽然本质上以太网是有损网络，但如今，随着在云环境中采用 GPU计算和大规模AI应用的普及，越来越多的应用在基于RDMA（RoCE）和优先级流量控制（PFC）上的融合以太网上运行，尤其是采用诸如Spectrum-X等平台让以太网实现无损网络，以太网可以成为一种实用的解决方案。

远程直接内存访问（RDMA）可通过网络实现高速、低时延远程系统内存、的数据传输。它允许在GPU和存储之间直接传输数据，而无需涉及这些系统的CPU。在传统网络中，数据传输涉及多个步骤：首先将数据从源系统的内存复制到网络堆栈，然后通过网络发送。最后，在接收端执行多个步骤后，将数据复制到目标系统的内存中。RDMA 绕过这些中间步骤，从而实现更高效的数据传输。

动态路由、多路径和基于包的负载分担

传统的数据中心应用程序往往会生成许多小型数据流，从而可以通过统计求平均值来反映网络流量。这意味着，对于基于流的路由，由交换机实现的简单静态哈希算法足以避免网络流量问题，例如等价多路径(ECMP)。相比之下，AI工作负载会生成少量的大型数据流，即所谓的“大象流”。这些大型数据流会消耗大量的链路带宽，如果将多个大象流转发到同一链路，则会出现拥塞和高时延。将ECMP与AI结合使用时，即使使用无阻塞的拓扑结构，发生此类冲突的可能性也非常高。由于AI作业性能取决于网络最坏情况下的性能，这些冲突将导致模型训练时间高于预期，并且非常不可预测。

因此，需要使用动态路由算法来动态地负载均衡通过网络传输的数据。此外，路由需要非常精细，以避免冲突。如果路由是逐流完成的，仍然有很大统计概率会发生拥塞。然而，当基于包的负载分担时，数据包到达目的地时很可能会乱序。对于基于数据包粒度的动态路由，必须建立灵活的重新排序机制，以便动态路由对应用程序不可见。Spectrum-X通过将Spectrum-4交换机的负载均衡功能与BlueField-3 DPU执行的直接数据放置(DDP)相结合来实现这一点，以提供端到端的动态路由。

拥塞控制

在同时运行不同AI作业的多租户AI云环境中，可能会出现网络拥塞。当n个发送方尝试将数据传输到一个目的地(或者具有n个不同目的地和n个发送方的数据流，途径具有来自其他应用程序的后台网络流量的交换机)时，这种情况尤为明显。这种网络拥塞不仅会导致更高的时延和有效带宽的降低，而且网络“热点”的传播和相关的背景流也会受害；也就是说，相邻的租户可能会受到来自另一个租户拥塞的影响。

在部署基于以太网的生成式AI时，使用最典型的拥塞控制方法，即显式拥塞通知 (ECN)是不够的。最终，为了缓解拥塞，必须对传输数据(网卡或DPU)的网络设备进行计量。使用ECN时，这种计量只有在交换机缓冲区达到特定容量阈值时才会发生。然后，接收方通知发送方测量其吞吐量，直到接收方看到拥塞已得到根治。但是，在大规模AI模型常见的突发流量情况下，这种拥塞通信的时延可能过高，导致缓冲区溢出和数据包丢弃。虽然深度缓冲区交换机可以降低缓冲区溢出的可能性，但它们引入的额外时延违背了拥塞控制的初衷。

性能隔离与安全

AI云等多租户环境需要保护，以免受到在同一基础设施上运行的其他作业的影响。许多以太网ASIC设计并不具有ASIC级别的作业保护。当“嘈杂的邻居”(另一项相邻作业)将网络流量发送到同一目标端口时，这可能会导致某些作业因有效带宽非常低而“受到损害”。

以太网还必须考虑网络公平性。Al云必须在同一基础设施上支持异构应用程序组合。不同的应用程序可能会使用不同的数据帧大小，如果不进行隔离优化，更大的数据帧将在与较小的数据帧传输到同一目标端口时占用过多的带宽。

共享数据包缓冲区是实现性能隔离、防止嘈杂邻居和网络不公平的关键。通用共享缓冲区可对交换机上的每个端口提供相同的缓存访问，从而为混合AI云工作负载提供所需的可预测性和一致的低时延。

除了从有效带宽角度考虑性能隔离之外，还必须认识到性能隔离和零信任安全架构是多租户环境中网络安全的关键。必须使用高效的加密和身份验证工具来保护静态和动态数据，并在不影响性能的情况下提供安全性。BlueField-3 DPU(兼容以太网和InfiniBand)具有基于硬件信任根的安全启动功能，还支持用于动态数据加密的MACsec和IPsec,以及用于静态数据的AES-XTS 256/512加密。

下载链接：

《HotChips 2024大会技术合集（1）》

《HotChips 2024大会技术合集（2）》

《HotChips 2024大会技术合集（3）》

《HotChips 2024大会技术合集（4）》

《HotChips 2024大会技术合集（5）》

《HotChips 2024大会技术合集（6）》

《HotChips 2024大会技术合集（7）》

《HotChips 2024大会技术合集（8）》

英伟达GPU加速迭代，聚焦AI光通信核心厂商

2024中国服务器CPU行业概览：信创带动服务器CPU国产化

《AI算力“卖水人”系列报告合集》

1、AI算力卖水人系列（1）：2024年互联网AI开支持续提升 2、AI算力卖水人系列（2）：芯片散热从风冷到液冷，AI驱动产业革新

从云到端，AI产业的新范式（2024）

大模型时代，基于AI Agent的数据分析与决策新趋势

2024年AI发展状况

2024面向AI智算数据中心网络架构与连接技术的发展路线展望白皮书

先进封装大势所趋，国产供应链机遇大于挑战

《2024年中国空间计算行业概览合集》

1、2024年中国空间计算行业概览（1）：空间计算先行，软硬件内容生态共振

2、2024年中国空间计算行业概览（Ⅱ）：空间计算设备产业链拆解（摘要版）

模型即服务：MaaS框架与应用研究报告（2024年）

GPU研究框架（2023）

SOC芯片研究框架（2022）

信创研究专题框架

从软件算法生态看GPU发展与局限

NVIDIA GPU架构白皮书

GPU技术专题下载链接

深度报告：GPU研究框架

CPU和GPU研究框架合集

AI算力研究：英伟达B200再创算力奇迹，液冷、光模块持续革新

GPU深度报告：英伟达GB200 NVL72全互联技术，铜缆方案或将成为未来趋势？

《算力网络：光网络技术合集（1）》

1、面向算力网络的新型全光网技术发展及关键器件探讨

2、面向算力网络的光网络智能化架构与技术白皮书

3、2023开放光网络系统验证测试规范

4、面向通感算一体化光网络的光纤传感技术白皮书

《算力网络：光网络技术合集（2）》

1、数据中心互联开放光传输系统设计

2、确定性光传输支撑广域长距算力互联

3、面向时隙光交换网络的纳秒级时间同步技术

4、数据中心光互联模块发展趋势及新技术研究

面向超万卡集群的新型智算技术白皮书

面向AI大模型的智算中心网络演进白皮书

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1657篇粉丝：207人

关注  私信

AI时代的网络：网络定义数据中心

立即预约直播：半导体设计及工艺仿真全解析

最近文章

热门文章

推荐

最新资讯