英伟达GB200NVL72全互联技术,铜缆方案或成为未来趋势?

智能计算芯世界 2024-04-01 07:35

本文来自“GPU深度报告:英伟达GB200 NVL72全互联技术,铜缆方案或将成为未来趋势?”。英伟达发布全新 Blackwell 平台,GPU 架构搭载六项变革型加速计算技术,将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式 AI 等领域实现突破Blackwell架构的 GPU 包含 2080 亿个晶体管,TSMC 4NP 工艺制造,两片裸片通过单个 GPU 10TB/s 的速度互联。
下载链接:
机器人专题研究:产业发展概览(2024)
国产AI算力行业报告:浪潮汹涌,势不可挡(2024)
AI系列之HBM:AI硬件核心,需求爆发增长
2024中国“百模大战”竞争格局分析报告(2024)
2024年中国虚拟现实(VR)行业研究报告

AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新

英伟达官宣新一代Blackwell架构,华为算力GPU需求破百万片
《人工智能技术行业应用图谱合集》
GPU深度报告:英伟达GB200 NVL72全互联技术,铜缆方案或将成为未来趋势?
机器人专题研究:产业发展概览(2024)
工业大模型应用报告v2.6(2024)
《海外垂直类AI报告专题(合集)》
复盘与展望:国产大模型的进击(2024)

英伟达发布新一代GPU架构,NVLink连接技术迭代升级

大模型语言模型:从理论到实践

技术展望2024:AI拐点,重塑人类潜力

网络大模型十大问题白皮书(2024)
大视研究:中国人工智能(AI)2024各行业应用研究报告

英伟达GTC专题:新一代GPU、具身智能和AI应用

2024年策略:AI鼎新,与时偕行

光模块专题:AI驱动网络变革,光摩尔定律加速

《半导体行业深度报告合集(2024)》

《人形机器人专题》
人形机器人专题2:编码器 
人形机器人专题3:IMU传感器专题 
人形机器人专题4:减速专题研究

《AI应用专题系列合集》


1. HGX B200 训练性能提升三倍,推理能力提升 15
NVIDIA HGX B200 HGX B100 成了 NVIDIA Blackwell Tensor Core GPU 与高速互连技术,基于 Blackwell HGX 系统在推理性能上相比前代实现了 15 倍的提升。
对于大规模模型如 GPT-MoE-1.8THGX B200 的推理性能比上一代 NVIDIA Hopper™ 15 倍。通过采用第二代 Transformer 引擎、定制的 Blackwell Tensor Core 技术、TensorRT™-LLM Nemo™ 框架的创新,显著加速了大型语言模型(LLM)和专家混合(MoE)模型的推理过程。第二代 Transformer 引擎采用 8 位浮点(FP8)和新的精度等技术,能够将大型语言模型如 GPT-MoE-1.8T 的训练速度提高 3 倍。此外,得益于具有1.8TB/s GPU GPU 互连速度的第五代 NVLinkInfiniBand 网络和 NVIDIA MagnumIO™ 软件的支持,这些技术共同保证了企业和广泛 GPU 计算集群的高效可扩展性。
2. GB200 训练性能提升至 4 倍,推理能力提升至 30
GB200 NVL72 ,解锁实时万亿参数模型,为万亿参数的大型语言模型(LLM)推理提供30 倍的实时速度提升。GB200 NVL 72 通过其机架级设计,连接 36 Grace CPU 72 Blackwell GPU,为数据中心提供前所未有的计算能力。NVIDIA GB200 NVL72 的核心,GB200 Grace Blackwell Superchip,采用 NVIDIA NVLink-C2C 互连技术,将两个高性能 NVIDIA Blackwell Tensor Core GPU 与一个 NVIDIA Grace CPU 连接,实现高效的计算协同。GB200 NVL72 同时集成了尖端功能和第二代 Transformer 引擎,利用第五代NVIDIA NVLink,支持 FP4 AI 精度。
GB200 NVL72 大幅提升大规模训练速度,最新 GB200 NVL72 包含更快的第二代Transformer 引擎,具有 FP8 精度,能够将大型语言模型的大规模训练速度提升 4 倍。
得益于每秒 1.8TB GPU GPU 互连速度、InfiniBand 网络和 NVIDIA Magnum IO软件的第五代 NVLink 技术,实现了显著的性能提升。GB200 NVL72 采用的液体冷却技术不仅提升了计算密度,减少了占地面积,而且通过高带宽、低延迟的 GPU 通信,显著减少了数据中心的碳足迹和能源消耗。与传统的 NVIDIA H100 风冷基础设施相比,GB200在相同功耗下实现了 25 倍的性能提升,同时降低了水消耗。GB200 利用 NVIDIABlackwell 架构的高带宽内存性能、NVLink-C2C 以及专用解压缩引擎,大幅提高了关键数据库查询的速度,相比 CPU 提升了 18 倍,并将总体拥有成本(TCO)降低了 5 倍,为企业处理、分析大量数据提供了强大的支持。
3. 第五代 NVLink GPU 为百亿亿次计算和万亿参数模型提供基础
NVIDIA 推出世界首个高速 GPU 互连技术 NVLink,提供的速度远超基于 PCIe 的解决方案,是多 GPU 系统扩展内存和性能的理想选择。它为处理最大视觉计算工作负载、释放百亿亿次计算能力和万亿参数人工智能模型的全部潜力提供了关键基础。
NVLink 释放数万亿参数 AI 模型的加速性能,显著提升了大型多 GPU 系统的可扩展性。每个 NVIDIA Blackwell Tensor Core GPU 支持多达 18 NVLink 100 GB/秒的连接,带宽达到 1.8 TB/秒,是上一代产品的两倍,超过 PCIe Gen5 的十四倍以上。
NVLink Switch 协同 NVLink 释放数据传输能力。NVLink Switch 通过连接多个 NVLink,实现了机架内和机架间全速度的 GPU 通信,这是一种 1.8TB/s 双向直接 GPU GPU 互连技术,极大地扩展了服务器内多 GPU 的输入和输出能力。NVLink Switch 还配备NVIDIA 可扩展分层聚合和缩减协议(SHARP引擎,优化了网络内缩减和多播加速,进一步提高了通信效率。NVLink Switch 允许 NVLink 连接跨节点扩展,形成高带宽、多节点 GPU 集群,实际上创建了数据中心级的 GPU。在 NVL72 系统中,NVLink Switch 实现了 130TB/s GPU 带宽,大大增强了大型模型的并行处理能力。这种设计使得多服务器集群可以随着计算量的增加而扩展 GPU 通信,支持的 GPU 数量是单个 8 GPU 系统的 9 倍。NVLink NVLink Switch 作为 NVIDIA 数据中心解决方案的关键构建模块,整合了 NVIDIA AI Enterprise 软件套件和 NVIDIA NGC目录中的硬件、网络、软件、库及优化的 AI 模型和应用程序。
.4. 专为人工智能设计的数据中心 DGX SuperPOD
NVIDIA 发布专门设计用于训练和推理万亿参数生成式 AI 模型的数据中心,DGX SuperPOD™ ,通过配备 DGX GB200 系统。每个采用液冷技术的机架装备有 36 NVIDIA GB200 Grace Blackwell Superchips,这些超级芯片集成了 36 NVIDIA GraceCPU 72 Blackwell GPU,并通过 NVIDIA NVLink 技术连接。DGX SuperPOD 可以通过 NVIDIA Quantum InfiniBand 连接多个机架,实现数万个 GB200 超级芯片的扩展,以支持大规模 AI 模型的训练和推理需求。
它配备了智能控制平面,该平面能够追踪硬件、软件和数据中心基础设施中的数千个数据点,确保系统的连续运行、数据完整性,同时规划维护并自动重新配置集群以避免停机。配备的 DGX GB200 系统在每个 GB200 超级芯片中搭载了一个 Grace CPU 和两个 Blackwell GPU,这些组件通过第五代 NVLink 连接,实现了每秒 1.8TBTB/s)的 GPU GPU 带宽。这样的设计不仅优化了数据传输速度,还极大提高了处理效率,使 DGX SuperPOD 成为处理万亿参数生成 AI 模型的理想选择。
5. NVL72 机架级系统支持万亿参数 LLM 训练和实时推理
GB200 NVL72 的机架级设计,通过在单个 NVIDIA NVLink 域上连接 72 Blackwell GPU,标志着 AI 超级计算的一次重大进步。这种独特的配置显著减少了传统网络扩展时的通信开销,使得对 1.8T 参数的模型进行实时推理成为可能,同时将模型训练速度提升了 4 倍。借助 72 NVLink 连接的 Blackwell GPU 30 TB 的统一内存,在 130 TB/s的计算结构上运行,GB200 NVL72 在单个机架中创造了一个 exaFLOP 级别的 AI 超级计算平台。这种创新为处理最复杂的大型模型提供了前所未有的计算能力。
GB200 NVL72 Blackwell 架构通过引入硬件解压缩引擎,具备大规模本地解压缩压缩数据能力,优化了端到端的分析管道。原生支持 LZ4Deflate Snappy 压缩格式,这一解压缩引擎加速了内存绑定的内核操作,提供了高达 800 GB/s 的性能。解压缩引擎的加入,结合高达 8 TB/s 的高内存带宽和 Grace CPU 的高速 NVLink 芯片到芯片(C2C)互连,显著加快了数据库查询过程。在查询基准测试中,Grace Blackwell 的执行速度比 CPUSapphire Rapids)快 18 倍,比 NVIDIA H100 Tensor Core GPU 6 倍。
GB200 NVL72 的核心,NVIDIA GB200 Grace Blackwell 超级芯片,通过 NVLink C2C 接口连接,提供了 900 GB/s 的双向带宽,简化了编程过程,并支持了更大内存需求的万亿参数 LLM、变压器模型和大规模模拟模型。基于全新 NVIDIA MGX 设计的 GB200 计算托盘,包含两个 Grace CPU 和四个 Blackwell GPU,采用液体冷却技术,大幅降低了成本和能耗同时提供了 80 petaflops AI 性能和 1.7 TB 的快速内存。
6. 网络交换机 X800 系列,转为大规模 AI 设计
NVIDIA Quantum-X800 平台代表了 NVIDIA Quantum InfiniBand 技术的最新进展,门为处理万亿参数级别的 AI 模型设计。此平台汇集了 NVIDIA Quantum-X800 InfiniBand交换机、NVIDIA ConnectX®-8 SuperNIC 以及 LinkX 电缆和收发器,共同构成了一个强大的网络解决方案。
NVIDIA Quantum-X800 InfiniBand 交换机具备 144 个端口,每个端口的连接速度高达800Gb/s,配备了 SHARP v4 的基于硬件的网内计算、自适应路由、基于遥测的拥塞控制、性能隔离功能以及支持统一结构管理器 (UFM) 的专用端口。此外,交换机还引入了高级的能效功能,如低功耗链路状态和功耗分析,旨在降低能源消耗并提高整体性能。
NVIDIA ConnectX-8 SuperNIC 800Gb/s 的连接速度和超低延迟特性,支持最新的高级网络内计算技术。它继承了 ConnectX 架构的优势,提供加速的 MPI 硬件引擎、服务质量、自适应路由、拥塞控制等高级网络功能。
NVIDIA Quantum-X800 平台的连接选项通过 NVIDIA LinkX互连产品组合提供了极大的灵活性,支持构建首选网络拓扑。无论是采用无源光纤电缆还是线性有源铜缆 (LACC)LinkX的连接式收发器都能满足高性能网络的需求。
7、线缆解决方案成为未来趋势,线缆背板连接将有望成为主流
Blackwell 微架构芯片 GB200,该芯片采取 NVLink 全互联技术,采用铜缆直连方案,实现芯片间的数据传输,可提高整体计算能力,满足人工智能和深度学习的需要。
相对于光纤解决方案,铜缆解决方案具有成本低、布线便捷的优点,未来 AI 服务器使用铜缆直连技术或将成为主流。为满足设备厂商的需求,我们预计未来高速背板连接器将主要使用线缆连接方案,铜线需求有望将迅速增加。
线缆背板技术已经存在 10 余年。最近从 10 Gbps 背板生态系统升级到 25 Gbps 及以上的背板生态系统让线缆背板技术成为适用于当今系统架构的理想解决方案。相较于 PCB 背板,线缆背板的优势是:
华丰科技、中航光电等一批国内的高速背板供应商因此迅速成长起来,市场份额不断增加,打破了海外厂商的垄断局面。

从最初的 1.25G开始提升,到 2007 年安费诺推出 20+G 产品,2012 年莫仕推出 56G 产品,2020 年以来国内厂商华丰 56G 产品逐渐进入量产。截至 2023 6 月,泰科、安费诺、莫仕等海外厂商112G 高速线缆背板产品进入量产阶段,部分国内厂商已完成小批量试制,有望近年进入量产。随着人工智能和机器学习的指数级增长,市场需求不断升级,未来 224G 的产品成为新的研发和竞争方向。

下载链接:

服务器行业深度报告:AI和“东数西算”双轮驱动,服务器再起航

AI时代的3D内容生产工具

复盘与未来推演(AI应用):追本溯源之后,我们相信什么?

深度研究:量子计算:人工智能与新质生产力的“未来引擎”

多模态,AI大模型新一轮革命

2024前沿人工智能安全的最佳实践

人工智能大模型工业应用准确性测评

2024 AI智算产业趋势展望分析报告

边缘智能:铺平人工智能的“最后一公里”

泛半导体产业黑灯工厂发展研究洞察白皮书

PCIe标准的演进和测试要求

《英伟达GTC 2024技术汇总》

1、英伟达GTC 2024主题演讲:见证AI的变革时刻 2、展望GTC变革,共享AI盛宴 3、英伟达GTC专题:新一代GPU、具身智能和AI应用

英伟达GTC专题:新一代GPU、具身智能和AI应用(精华)

2024年策略:AI鼎新,与时偕行

人工智能生成图像的危害分析与网络真实性保护(2024)

家庭大脑白皮书(2024):大模型时代智慧家庭应用新范式

《半导体行业深度报告合集(2024)》

《人形机器人专题》

《70+篇半导体行业“研究框架”合集》

500+份重磅ChatGPT专业报告
《人工智能AI大模型技术合集》
《56份GPU技术及白皮书汇总》


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。



智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 36浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 53浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 55浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 86浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 166浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 57浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 45浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 68浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 54浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 63浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦