GTC22|NVIDIA宣布推出Hopper架构,掀起新一代加速计算浪潮

原创 英伟达NVIDIA中国 2022-03-23 17:34

作为全球 AI 基础设施的全新引擎,NVIDIA H100 GPU 实现了数量级的性能飞跃



NVIDIA 于今日宣布推出采用 NVIDIA Hopper™ 架构的新一代加速计算平台。与上一代产品相比,该平台实现了数量级的性能飞跃。


这一全新架构以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。


NVIDIA 同时发布其首款基于 Hopper 架构的 GPU — NVIDIA H100。该款 GPU 集成了 800 亿个晶体管。H100 是全球范围内最大的性能出众的加速器,拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink® 互连技术等突破性功能,可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。


NVIDIA 创始人兼 CEO 黄仁勋表示:“数据中心正在转变成‘AI 工厂’。它们处理大量数据,以实现智能。NVIDIA H100 是全球 AI 基础设施的引擎,让企业能够利用其实现自身 AI 业务的加速。”


H100 技术突破


H100 NVIDIA GPU 为加速大规模 AI 和 HPC 设定了新的标准,带来了六项突破性创新:

  • 世界最先进的芯片 —— H100 由 800 亿个晶体管构建而成,这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺,因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度,并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承载相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。

  • 新的 Transformer 引擎 —— Transformer 现在已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下,将这些网络的速度提升至上一代的六倍。

  • 第二代安全多实例 GPU —— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例,以处理不同类型的作业。与上一代产品相比,在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置,将 MIG 的部分能力扩展了 7 倍。

  • 机密计算 —— H100 是全球首款具有机密计算功能的加速器,可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习,也可以应用于共享云基础设施。

  • 第 4 代 NVIDIA NVLink —— 为加速大型 AI 模型,NVLink 结合全新的外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多可以连接多达 256 个 H100 GPU,相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络,带宽高出9倍。

  • DPX 指令 —— 新的 DPX 指令可加速动态规划,适用于包括路径优化和基因组学在内的一系列算法,与 CPU 和上一代 GPU 相比,其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列,前者可以在动态仓库环境中为自主机器人车队寻找最优线路,而后者可用于 DNA 和蛋白质分类与折叠的序列比对。


H100 的多项技术创新相结合,进一步扩大了 NVIDIA在 AI 推理和训练的领导地位,利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,同时满足实时对话式 AI 所需的次秒级延迟。利用 H100,研究人员和开发者能够训练庞大的模型,如包含 3950 亿个参数的混合专家模型,训练速度加速高达9倍,将训练时间从几周缩短到几天。


NVIDIA H100 的广泛采用


NVIDIA H100 可部署于各种数据中心,包括内部私有云、云、混合云和边缘数据中心。这款产品预计于今年晚些时候全面发售,届时企业可从全球各大云服务提供商和计算机制造商处购买,或者直接从 NVIDIA 官方渠道购买。


NVIDIA 的第四代 DGX™ 系统 DGX H100 配备 8 块 H100 GPU,以全新的 FP8 精度提供 32 Petaflop 的 AI 性能,并支持扩展,能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的海量计算需求。


DGX H100 系统中的每块 GPU 都通过第四代 NVLink 连接,可提供 900GB/s 的带宽,与上一代相比,速度提升了 1.5 倍。NVSwitch™ 支持所有八块 H100 GPU 通过 NVLink 全互联。新一代 NVIDIA DGX SuperPOD™ 超级计算机可通过外部 NVLink Switch 互联,最多可连接 32 个 DGX H100 节点。


Hopper 已在行业内获得各大云服务提供商的广泛支持,包括阿里云、AWS、百度智能云、Google Cloud、Microsoft Azure、Oracle Cloud、腾讯云和火山引擎,这些云服务商均计划推出基于 H100 的实例。


全球领先的系统制造商,包括源讯、BOXX Technologies、思科、戴尔科技、富士通、技嘉、新华三、慧与 (HPE)、浪潮、联想、宁畅和超微预计推出各种采用 H100 加速器的服务器。


规模各异的 NVIDIA H100


H100 将提供 SXM 和 PCIe 两种规格,可满足各种服务器设计需求。此外,NVIDIA还会推出融合加速器,耦合 H100 GPU 与 NVIDIA ConnectX®-7 400Gb/s InfiniBand 和以太网智能网卡。


NVIDIA H100 SXM 提供 4 GPU 和 8 GPU 配置的 HGX™ H100 服务器主板,可助力企业将应用扩展至一台服务器和多台服务器中的多个 GPU。基于 HGX H100 的服务器可为 AI 训练和推理以及数据分析和 HPC 应用提供更高的应用性能。


H100 PCIe 通过 NVLink 连接两块 GPU,相较于 PCIe 5.0,可提供 7 倍以上的带宽,为主流企业级服务器上运行的应用带来卓越的性能。PCIe规格便于集成到现有的数据中心基础设施中。


H100 CNX 是一款全新的融合加速器。这款加速器将 H100 与 ConnectX-7 智能网卡相结合,可为 I/O 密集型应用(如企业级数据中心内的多节点 AI 训练和边缘 5G 信号处理)提供强劲性能。


NVIDIA Hopper 架构 GPU 还可与 NVIDIA Grace™ CPU 通过 NVLink-C2C 互联,与 PCIe 5.0 相比,可将 CPU 和 GPU 之间的通信速度提高 7 倍以上。这一组合,即Grace Hopper 超级芯片,可用于大规模 HPC 和 AI 应用。


NVIDIA 软件支持


H100 NVIDIA GPU 由功能强大的软件工具提供支持,可助力开发者和企业构建并加速 AI、HPC 等一系列应用。其中包括用于语音、推荐系统和超大规模推理等工作负载的 NVIDIA AI 软件套件的重大更新。


NVIDIA 还发布了 60 多个针对 CUDA-X™ 的一系列库、工具和技术的更新,以加速量子计算和 6G 研究、网络安全、基因组学和药物研发等领域的研究进展。


供货信息

NVIDIA H100 将自第三季度起开始供货。


观看 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 2022 主题演讲,进一步了解NVIDIA Hopper 和 H100。免费注册 GTC 2022,与NVIDIA和行业领导者共襄盛会。



扫描下方海报二维码,即可观看 GTC22 黄仁勋重磅主题演讲,与你共同探索 AI、Omniverse 等前沿科技!


评论
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 108浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 170浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 83浏览
  • 全球智能电视时代来临这年头若是消费者想随意地从各个通路中选购电视时,不难发现目前市场上的产品都已是具有智能联网功能的智能电视了,可以宣告智能电视的普及时代已到临!Google从2021年开始大力推广Google TV(即原Android TV的升级版),其他各大品牌商也都跟进推出搭载Google TV操作系统的机种,除了Google TV外,LG、Samsung、Panasonic等大厂牌也开发出自家的智能电视平台,可以看出各家业者都一致地看好这块大饼。智能电视的Wi-Fi连线怎么消失了?智能电
    百佳泰测试实验室 2024-12-12 17:33 33浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 63浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-12 10:13 23浏览
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 80浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 83浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 106浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 68浏览
  • 应用环境与极具挑战性的测试需求在服务器制造领域里,系统整合测试(System Integration Test;SIT)是确保产品质量和性能的关键步骤。随着服务器系统的复杂性不断提升,包括:多种硬件组件、操作系统、虚拟化平台以及各种应用程序和服务的整合,服务器制造商面临着更有挑战性的测试需求。这些挑战主要体现在以下五个方面:1. 硬件和软件的高度整合:现代服务器通常包括多个处理器、内存模块、储存设备和网络接口。这些硬件组件必须与操作系统及应用软件无缝整合。SIT测试可以帮助制造商确保这些不同组件
    百佳泰测试实验室 2024-12-12 17:45 25浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 69浏览
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 74浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-12 10:27 29浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 98浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦