InfiniBand：突破大模型训练性能瓶颈

智能计算芯世界 2024-05-12 07:40

示波器的最低带宽多少？ 示波器需要多少模拟通道？

ChatGPT对技术的影响引发了对人工智能未来的预测，尤其是多模态技术的关注。OpenAI推出了具有突破性的多模态模型GPT-4，使各个领域取得了显著的发展。

这些AI进步是通过大规模模型训练实现的，这需要大量的计算资源和高速数据传输网络。端到端InfiniBand（IB）网络作为高性能计算和AI模型训练的理想选择，发挥着重要作用。在本文中，我们将深入探讨大型语言模型（LLM）训练的概念，并探索端到端InfiniBand网络在解决LLM训练瓶颈方面的必要性。

下载链接：

多元CPU性能调优技术挑战、产品设计和业务实践

新型智算中心改造：网络成大模型训练瓶颈，节点内外多方案并存

计算机行业专题报告：大模型进展2.0

2024电源管理芯片产业分析报告

量子计算：打破传统范式，通用计算应用可期

面向超万卡集群的新型智算技术白皮书（2024）

《NVIDIA BlueField系列合集》

1、NVIDIA BlueField：BlueField产品更新介绍 2、NVIDIA BlueField：BlueField硬件系统介绍

3、NVIDIA BlueField：BlueField DPU NVQual Overview

《AI Agent技术应用合集》

1、面向办公自动化领域的 AI Agent 建设思考与分享

2、AI Agent 在企业经营分析场景的落地

3、LLM和Multi-Agent在运维领域的实验探索

《大模型技术在行业应用实践合集（1）》

1、基于多模态智能引擎大模型知识库技术应用

2、饿了么垂域大模型EGPT训练与C端应用实践

3、金山云：大模型推动知识工作领域的创新与变革

4、超大规模集群下大语言模型训练的最佳实践

5、蚂蚁大模型存储加速实践

《大模型技术在行业应用实践合集（2）》

1、大模型数据安全：从测评到实时检测的全流程实践

2、大模型原生应用产品设计的前沿探索

3、海天瑞声在大模型数据的探索与实践

4、类 Sora 开源架构模型训练实践

5、大模型 AI 训练的数据存储加速

《大模型技术在行业应用实践合集（3）》

1、基于 AI 大模型生成微信小程序的探索与实践

2、教育大模型，说你行你才行

3、大模型赋能的数据资产平台构建实践

4、大规模微服务破局之道：合并编译

5、大规模工程及领域架构治理与服务架构合理性的度量

《大模型技术在行业应用实践合集（4）》

1、MoonBit 月兔：大语言模型时代的软件开发起点

2、AI 大模型技术在数据库 DevOps 的实践

3、大模型应用开发新范式

4、大模型赋能 DevOps，研发全环节提速

5、大模型技术在快手搜索的应用

6、快意大模型在短视频互动场景的应用探索

《超大模型训练技术合集》

1、超大规模多模态预训练模型M6的关键技术突破及产业应用

2、高效训练百万亿参数预训练模型的系统挑战和对策

量子科技专题系列一：逐梦量子，星辰大海（2024）

《2024年AI及大模型报告合集》

1、2024人形机器人行业研究报告

2、2024中国AI Agent行业研究报告

3、2024人工智能与职场研究报告

4、2024大型语言模型行业图谱研究报告

5、2024大模型驱动的汽车行业群体智能技术白皮书

6、2024大语言模型综合能力测评报告

2024洞悉AI人群新范式：AI机会人群社媒研究报告暨人群工厂系列白皮书

2024中国空间计算行业概览：空间计算先行，软硬件内容生态共振（摘要版）

企业竞争图谱：2024年AIPC（人工智能个人电脑）

大型语言模型（LLM）和ChatGPT之间是否存在联系

训练大型语言模型（LLM）面临的瓶颈主要与GPU计算集群内的数据传输和通信有关。随着大型语言模型的增长，对高速可靠网络的需求变得至关重要。例如，具有1.75万亿参数的GPT-3的模型无法在单机上训练，而是严重依赖于GPU集群。主要瓶颈在于在训练集群中高效地在节点之间传输数据。

阶段1：环形全约减

一种常用的GPU通信算法是环形全约减，其中GPU形成一个环，使数据在环内流动。每个GPU都有一个左邻和一个右邻，数据只向右邻发送，从左邻接收。该算法包括两个步骤：散射-约减和全收集。在散射-约减步骤中，GPU交换数据以获得最终结果的一个块。在全收集步骤中，GPU交换这些块，以确保所有GPU都具有完整的最终结果。

阶段2：双阶段环形

过去由于带宽有限且没有NVLink或RDMA技术，一个大型环对于单机和多机分布已经足够。然而，随着NVLink在单机内的引入，相同的方法不再适用。网络带宽远低于NVLink的带宽，因此采用一个大环将大幅降低NVLink的效率到网络的水平。此外，在当前的多网卡环境中，仅利用一个环无法充分利用多个网卡。因此，建议采用双阶段环方法来解决这些问题。

在双阶段环形场景中，数据同步发生在单台机器内的GPU之间，利用了NVLink的高带宽优势。随后，跨多台机器的GPU使用多个网卡建立多个环形，以同步来自不同段的数据。最后，单台机器内的GPU再次进行同步，完成所有GPU之间的数据同步。值得注意的是，NVIDIA集体通信库（NCCL）在这个过程中发挥了关键作用。

NVIDIA集体通信库（NCCL）包括针对NVIDIA GPU和网络进行优化的多GPU和多节点通信例程。NCCL为全收集、全约减、广播、约减、约减散开和点对点发送和接收操作提供高效的基本操作。这些例程经过优化，以实现高带宽和低延迟，利用节点内和NVIDIA Mellanox网络通过PCIe和NVLink高速互连。

通过解决数据传输和通信中的瓶颈问题，GPU计算集群的进步以及利用NCCL等工具的使用有助于克服大型语言模型训练中的挑战，为AI研究和开发进一步的突破铺平了道路。

端到端InfiniBand网络解决方案如何提供帮助

在大型模型训练中，以太网在传输速率和延迟方面存在不足。相比之下，端到端InfiniBand网络提供了高性能计算解决方案，能够提供高达400 Gbps的传输速率和微秒级的延迟。因此，InfiniBand已成为大规模模型训练的理想选择。

数据冗余和错误纠正机制

端到端InfiniBand网络的一个关键优势是其对数据冗余和错误纠正机制的支持，确保可靠的数据传输。在大规模模型训练中，由于处理的数据量巨大，传输错误或数据丢失会对训练过程产生不利影响，这一点尤为重要。通过利用InfiniBand的强大功能，可以较大程度地减少由于数据传输问题引起的中断或故障。

本地子网的配置和维护

在InfiniBand互连协议中，每个节点都配备有一个主机通道适配器（HCA），负责与主机设备建立和维护链接。交换机具有多个端口，用于在端口之间进行数据包转发，从而实现子网内的高效数据传输。

子网管理器（SM）在配置和维护本地子网方面发挥着关键作用，每个InfiniBand设备上都有子网管理器数据包（SMP）和子网管理器代理（SMA）提供支持。子网管理器（SM）发现和初始化网络，为所有设备分配唯一标识符，确定最小传输单元（MTU），并根据选择的路由算法生成交换机的路由表。它还定期扫描子网，检测拓扑变化，并相应调整网络配置。

基于信用的流量控制

与其他网络通信协议相比，InfiniBand网络提供更高的带宽、更低的延迟和更大的可扩展性。此外，InfiniBand采用基于信用的流量控制，发送节点确保不会传输超过接收缓冲区中可用信用数量的数据到连接的另一端。这消除类似TCP窗口算法的数据包丢失机制的需求，使InfiniBand网络能够以较低延迟和CPU使用率实现较高数据传输速率。

远程直接内存访问（RDMA）技术

InfiniBand利用远程直接内存访问（RDMA）技术，实现应用程序之间在网络上直接进行数据传输，无需涉及操作系统。这种零拷贝传输方法显著减少了两端CPU资源的消耗，使应用程序能够直接从内存中读取消息。降低的CPU开销提升了网络快速传输数据的能力，并使应用程序更高效地接收数据。

总体而言，端到端InfiniBand网络为大型模型训练提供了显著优势，包括高带宽、低延迟、数据冗余和错误纠正机制。通过利用InfiniBand的能力，研究人员可以克服性能限制，增强系统管理，并加速大规模语言模型的训练。

下载链接：

人工智能系列专题报告：CoWoS技术引领先进封装，国内OSAT有望受益

人形机器人从0到1，国产化&软件赋能带来行业变革

2024年中国传感器行业现状及发展趋势研究报告

从存力到封力：CoWoS研究框架

2023年封装基板行业研究

香山：开源高性能RISC-V处理器

AI算力研究：英伟达B200再创算力奇迹，液冷、光模块持续革新

GPU深度报告：英伟达GB200 NVL72全互联技术，铜缆方案或将成为未来趋势？

人工智能系列专题报告：CoWoS技术引领先进封装，国内OSAT有望受益

软硬件融合：从DPU到超异构计算

《大模型技术能力测评合集》

1、大模型时代，智算网络性能评测挑战

2、AIGC通用大模型产品测评篇（2023）

3、人工智能大模型工业应用准确性测评

4、甲子星空坐标系：AIGC通用大模型产品测评篇

5、AIGC通用大模型产品测评篇（2023）

6、2023年中国大模型行研能力评测

《大模型时代：智能化技术合集》

1、大模型时代，智算网络性能评测挑战

2、大模型时代：智能设计的机遇和挑战

大模型时代的AI十大趋势观察

《智算系列技术合集》

1、新型智算中心算力池化技术白皮书 2、智算中心网络架构白皮书 3、面向AI大模型的智算中心网络演进白皮书 4、智算赋能算网新应用白皮书

14份半导体“AI的iPhone时刻”深度系列报告合集

12份走进“芯”时代系列深度报告合集

《70+篇半导体行业“研究框架”合集》

《42份智能网卡和DPU合集》

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1574篇粉丝：200人

 私信