使用NVIDIASpectrum-X网络平台加速生成式AI工作负载

英伟达NVIDIA中国 2023-06-09 20:37

大语言模型(LLM)和人工智能应用程序(如 ChatGPT 和 DALL-E)最近出现了快速增长。由于 GPU、CPU、DPU、高速存储和针对人工智能优化的软件创新,人工智能现在得到了广泛使用。您甚至可以在云端或内部部署人工智能。


然而,人工智能应用程序可能会对网络造成很大负担,这种增长给 CPU 和 GPU 服务器以及将这些系统连接到一起的现有底层网络基础设施带来了负担。


传统以太网虽然足以处理主流和企业应用程序,如 Web、视频或音频流,但并未针对支持新一代人工智能工作负载进行优化。在松耦合应用、低带宽数据流和高抖动的情况下,传统以太网是理想的选择。它可能足以满足异构流量(如 Web、视频或音频流、文件传输和游戏),但在发生超额订阅时并不理想。


NVIDIA Spectrum-X 网络平台是一种端到端解决方案,专为满足人工智能应用程序的性能需求而全新设计,并针对高速网络性能、低延迟和规模进行了优化。


NVIDIA Spectrum-X


NVIDIA Spectrum-X 网络平台是为了解决传统以太网网络的局限性而开发的。它是一种网络架构,旨在满足要求苛刻的人工智能应用程序的需求,用于实现紧耦合的过程。


这种经过 NVIDIA 认证和测试的端到端解决方案结合了一流的人工智能优化网络硬件和软件,可提供人工智能工作负载所需的可预测的、一致的和毫不妥协的性能水平。


图 1:NVIDIA Spectrum-X 网络平台将 NVIDIA Spectrum-4 以太网交换机与 NVIDIA BlueField-3 DPU 相结合,为 AI 工作负载提供最佳性能


NVIDIA Spectrum-X 是一种高度通用的技术,可用于各种人工智能应用程序。具体而言,它可以在以下用例中显著提高 AI 集群的性能和效率:


  • GPT 和 BERT 大型语言模型

  • 分布式训练和并行处理

  • 自然语言处理(NLP)

  • 计算机视觉

  • 高性能模拟(NVIDIA Omniverse 和 NVIDIA OVX)

  • 高性能数据分析(Spark)

  • 推理应用程序


NVIDIA Spectrum-X 平台的两个关键元素是NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 DPU。


NVIDIA Spectrum-4 以太网交换机


NVIDIA Spectrum-4 以太网交换机为基于标准的以太网构建的 AI 集群提供了前所未有的应用程序性能。要充分发挥 NVIDIA Spectrum-4 的潜力,需要端到端的、专门构建的网络架构。只有 NVIDIA Spectrum-X 平台才能提供支持超大规模人工智能所需的硬件加速器和卸载。


NVIDIA Spectrum-4 以太网交换机基于 51.2Tbps 的 Spectrum-4 ASIC 而构建,带宽是上一代产品的 4 倍。它是全球首款以太网人工智能交换平台。它专为人工智能工作负载而设计,将专用的高性能架构与标准以太网连接相结合。


NVIDIA Spectrum-4 提供:


  • RoCE 扩展:具有独特增强功能的 RoCE

  • RoCE 自适应路由

  • RoCE 性能隔离

  • 简化、自动化的自适应路由和 RoCE 配置

  • 同步集合

  • 用于 HPC 增强的其他 RoCE 功能

  • 大规模以太网上的最高有效带宽

  • 低延迟、低抖动和短尾

  • 确定性性能和性能隔离

  • 全栈和端到端优化

  • NVIDIA Cumulus Linux 或 SONiC


图 2 : NVIDIA Spectrum-4 将专用的高性能架构与标准以太网连接相结合


NVIDIA Spectrum-X 与 NVIDIA Spectrum-4 的主要优势包括:


  • 将 RoCE 扩展用于 AI 和自适应路由(AR),以实现 NVIDIA 集合通信库(NCCL)的最大性能。

  • 利用性能隔离来确保在多租户和多作业环境中,一个作业不会影响另一个作业。

  • 确保在出现网络组件故障时,网络架构能够继续提供最高性能。

  • 与 BlueField-3 DPU 同步,实现最佳 NCCL 和 AI 性能。

  • 在各种人工智能工作负载下保持一致和稳定的性能,这对实现 SLA 至关重要。


端到端最佳网络性能


要构建有效的人工智能计算网络架构,需要优化人工智能网络的每一个部分,从 DPU 到交换机再到网络软件。使用 RoCE 自适应路由和高级拥塞控制机制等技术,在负载和规模需求下实现最高有效带宽。结合在 NVIDIA BlueField-3 DPU 和 Spectrum-4 交换机上同步工作的功能对于实现 AI 网络架构的最高性能和可靠性至关重要。


RoCE 自适应路由


人工智能工作负载和应用程序的特点是少量大象流负责 GPU 之间的大量数据移动,其中尾部延迟严重影响整个应用程序的性能。使用传统的网络路由机制来迎合这种流量模式可能会导致 AI 工作负载的 GPU 性能不一致且未得到充分利用。


RoCE 自适应路由是一种细粒度的负载均衡技术。它动态地重新路由 RDMA 数据以避免拥塞,并提供最佳负载均衡以实现最高的有效数据带宽。


它是一种端到端功能,包括 Spectrum-4 交换机和 BlueField-3 DPU 。Spectrum-4 交换机负责为每个数据包选择最不拥塞的端口进行数据传输。由于同一流的不同数据包通过网络的不同路径来传输,它们可能会无序到达目的地。BlueField-3 在 RoCE 传输层转换任何无序数据,透明地将有序数据传递给应用程序。


Spectrum-4 根据出口队列负载评估拥塞,确保所有端口都很好地均衡。对于每个网络数据包,交换机都会在其出口队列中选择负载最小的端口。Spectrum-4 还接收来自相邻交换机的状态通知,这会影响路由决策。所评估的队列与服务质量级别相匹配。


因此,NVIDIA Spectrum-X 能够在超大规模系统的负载和规模下实现高达 95% 的有效带宽。


图 3 :NVIDIA Spectrum-4 典型数据中心部署结构


RoCE 拥塞控制


由于网络层面的拥塞,在超大规模云系统上并发运行的应用程序可能会出现性能下降和可重复运行时间缩短的问题。这可能是由应用程序本身的网络流量或来自其他应用程序的后台网络流量引起的。这种拥塞的主要原因被称为多对一拥塞,即存在多个数据发送方和单一数据接收方。


这种拥塞不能使用自适应路由来解决,并且实际上需要对每个端点的数据流进行计量。拥塞控制是一种端到端的技术,Spectrum-4 交换机提供代表实时拥塞数据的网络遥测信息。这些遥测信息由 BlueField DPU 处理,后者管理和控制数据发送方的数据注入速率,从而实现网络共享的最大效率。


如果没有拥塞控制,多对一的场景将导致网络背压和拥塞扩散,甚至出现丢包,从而极大地降低网络和应用程序的性能。


在拥塞控制过程中,BlueField-3 DPU 执行拥塞控制算法。它们以微秒的反应延迟每秒处理数百万个拥塞控制事件,并应用细粒度的速率决策。


Spectrum-4 交换机带内遥测既包含用于准确拥塞估计的排队信息,也包含用于快速恢复的端口利用率指示。NVIDIA RoCE 拥塞控制通过使遥测数据绕过拥塞流排队延迟,同时仍然提供准确和并发的遥测,从而显著改善了拥塞发现和反应时间。


RoCE 性能隔离


人工智能超大规模和云基础设施需要支持越来越多的用户(租户)和并行应用程序或工作流。这些用户和应用程序无意中竞争基础设施的共享资源(如网络),因此可能会影响性能。


NVIDIA Spectrum-X 平台包括一些机制,当它们结合在一起时,可以提供性能隔离。它确保一个工作负载不会影响另一个工作负荷的性能。这些机制确保任何工作负载都不会造成网络拥塞,从而影响另一个工作负载的数据移动。性能隔离机制包括服务质量隔离、用于数据路径扩展的 RoCE 自适应路由和 RoCE 拥塞控制。


NVIDIA Spectrum-X 平台具有软件和硬件的紧密集成功能,能够更深入地了解人工智能工作负载和流量模式。这样的基础设施提供了使用专用以太网 AI 集群进行大型工作负载测试的能力。通过利用来自 Spectrum 以太网交换机和 BlueField-3 DPU 的遥测技术,NVIDIA NetQ 可以主动检测网络问题并更快地解决网络问题,以优化网络容量的使用。


NVIDIA NetQ 网络验证和 ASIC 监控工具集提供了对网络健康状况和行为的可见性。NetQ 流遥测分析显示了数据流在穿越网络时所采用的路径,从而提供网络延迟和性能洞察。


提高能效


由于对计算资源的需求不断增长以及控制能源成本的需要,功率封顶已成为数据中心的一种常见做法。Spectrum-4 ASIC 和光学创新可简化网络设计,提高了每瓦的性能,实现了更高效率,并提供了更快的人工智能洞察,而不会超过网络功率预算。


总结


NVIDIA Spectrum-X 网络平台专为要求苛刻的人工智能应用而设计。与传统以太网相比,NVIDIA Spectrum-X 具有更高的性能、更低的功耗、更低的 TCO、全栈软硬件集成和大规模,它是运行现有和未来人工智能工作负载的理想平台。


观看下方视频

了解更多关于 NVIDIA Spectrum-X 的信息!



扫描下方二维码查看更多有关 NVIDIA Spectrum-X 的信息。




更多精彩内容

COMPUTEX2023 | NVIDIA 推出面向超大规模生成式 AI 的加速以太网平台

评论
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 105浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 52浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 86浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 45浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 71浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 41浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 101浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 86浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 70浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 75浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦