NVIDIA 正在推动 HPC 行业借助 AI 系统实现根本性转变。
5 月 12 日 – 16 日,在德国举行的 ISC 2024 期间,NVIDIA 带来众多在超级计算、科学计算领域的最新进展,以下是相关发布的博客与内容简报汇总。
新的 Grace Hopper 系统在 ISC 2024 的 TOP500 和 Green500 中为新一波 E 级超算 AI 系统提供动力。NVIDIA 为 TOP500 和 Green500 中名列前茅的系统提供支持,体现了 Grace Hopper 性能与能效优势。
生成式 AI 正在推动多个科学领域的创新,包括天气预报、计算机科学、材料科学和医疗。
Blackwell 将推动新一代科学计算应用。
NVIDIA 为全球首批量子加速超级计算机提供动力。
提示:点击下方蓝色标题,即可跳转阅读完整博客内容
NVIDIA 平台推动
超级计算与科学计算突破发展
NVIDIA Grace Hopper 点亮 AI 超级计算新时代
全球 9 台采用 NVIDIA Grace Hopper 超级芯片的新型超级计算机即将上线,以加速科学研究和发现,这些系统共计可提供 200 EFLOPS(即每秒 200 百亿亿次计算)的高能效 AI 处理能力。
使用基于 Arm 架构 NVIDIA Grace CPU 超级芯片的超级计算机数量正在逐渐攀升,包括英国布里斯托大学(Bristol)的 Isambard-3、美国洛斯阿拉莫斯国家实验室(LANL)的 Venado、德克萨斯高级计算中心的 Vista 都有基于 NVIDIA Grace CPU 超级芯片的非加速系统上线。
NVIDIA Blackwell 平台推动科学计算突破发展
NVIDIA 的 Blackwell 平台正在推动新一波科学计算应用,包括高级模拟、AI、量子计算、数据分析等。Blackwell 在这些工作负载中推动创新突破,具有突破性的性能优势。
加速计算和 AI 通过降低能源成本推动科学计算。例如,相较于基于传统 CPU 的系统和其他系统,天气模拟的成本和能耗分别降至其 1/200 和 1/300,数字孪生模拟的成本和能耗则分别降至其 1/65 和 1/58。
NVIDIA 网络平台为科学计算提供极致性能
NVIDIA Quantum-X800 InfiniBand 网络平台可为科学计算基础设施提供最高吞吐量,并树立了新的行业标准。
该平台包含 NVIDIA Quantum Q3400 和 Q3200 交换机, 以及 NVIDIA ConnectX-8 SuperNIC,二者组合在带宽上可达上一代产品的 2 倍。
Q3400 平台拥有 144 个端口,带宽容量提高了 5 倍。
使用 NVIDIA 的 SHARPv4 技术实现了 14.4 Tflops 的网络计算能力,较上一代产品提高了 9 倍。
性能的飞跃和能效的提高,使科学计算的工作负载完成时间与能耗显著减少。
AI 与 HPC 融合,推动多个科学领域创新
量子加速的超级计算 —— 一个新的时代机遇
量子计算为聚变能、气候研究、新药研发等领域带来了大幅加速。因此,研究人员正努力在基于 NVIDIA GPU 的系统和软件模拟未来的量子计算机,以前所未有的速度开发和测试量子算法。
NVIDIA Blackwell 架构将助推量子模拟达到新高度,通过最新的 NVIDIA NVLink 多节点互连技术,可以更快地打通数据以提高量子模拟速度。
NVIDIA 通过 CUDA-Q 平台为全球各地的量子计算中心提供加速。
CUDA-Q 是一个开源的、与量子硬件无关的 SDK,用于模拟量子计算机和编程量子加速的超级计算机。
CUDA-Q 通过一个 CPU、GPU 和 QPU(量子处理器)协同工作的统一编程模型,实现量子计算机模拟和混合应用开发。
德国、日本和波兰的三个超级计算中心正在使用 CUDA-Q 将量子处理器(QPU)与 NVIDIA 加速的超级计算机集成在一起。NVIDIA 正在助力全球各地的国家级超算中心加快量子计算的研究发展。
未来,通过将量子计算机与超级计算机紧密集成,CUDA-Q 还能够使 AI 与量子计算相结合。
助力科学发展:NVIDIA AI 加速 HPC 研究
科学家和研究人员正在利用 NVIDIA 技术将生成式 AI 应用于代码生成、天气预报、基因研究和材料科学领域的 HPC 工作。
NVIDIA 和 Recursion 利用 AI 超级计算机加快新药研发
BioHive-2 被称为制药行业最大的超算系统。BioHive 由 NVIDIA AI 驱动,用于加速医疗领域科学家的工作。在最新一期的 Top 500 榜单中,BioHive-2 位列 35,排名比其上一代上升 100 多位。
BioHive-2 搭载Hopper GPU,并通过 Quantum-2 InfiniBand 网络互联。基于 NVIDIA DGX SuperPOD 搭建的 BioHive-2 比初代系统 BioHive-1 快近 5 倍。
加速计算是能效的基石
NVIDIA 横扫新一届全球最节能超级计算机 Green500 榜单
今年的 Green500 榜单有了显著的变化,前三名的超级计算机均为新上榜者,基于 NVIDIA Grace Hopper 打造的超算系统包揽了前三的位置。
在 Green500 中,采用 NVIDIA 技术的系统在前 10 名中占据了 7 席,排名前 50 中有 40 台都使用了 NVIDIA 技术,这足以证明加速计算是能效的基石,也是高性能计算最节能的方法。
性能最强超级计算机 TOP500 榜单中,排名第 6 位的来自瑞士国家超级计算中心(CSCS)的 Alps 超算系统,是本届 TOP500 唯一新进前 10 的系统,其在 Green500 上排名第 14。Alps 系统基于 NVIDIA Grace Hopper 打造,它的一个优化的子系统(被称为 preAlps)在 Green500 榜单上名列第 5。此外,Alps 系统在 TOP500 榜单的高性能 Linpack 基准测试中创造了 270 PFLOPS 的纪录。充分体现了 NVIDIA Grace Hopper 能效与性能优势显著。
Grace Hopper 架构实现了 CPU 和 GPU 功能的紧密结合,不仅提高了性能,还大幅提高了能效,从而开创了处理技术的新时代。
数据中心需要新的能效指标
数据中心需要更加先进的、能够显示实际应用运行进度的 dashboard 来指导他们提高能效。
如今使用最广泛的衡量标准——能源使用效率(PUE),PUE 在云计算兴起的时候给数据中心带来了很大的帮助,并将继续发挥作用。
在如今的生成式 AI 时代,工作负载和运行这些负载的系统都发生了巨大变化,因此仅使用 PUE 是不够的。专家们也认为有必要制定新的能效指标。
在生成式 AI 时代必须付出更大的努力来进一步提高能效。如果能够衡量目前最先进的应用所做有用功所消耗的能源,就可以将超级计算和数据中心的能效提升到一个新的水平。
小结
在 ISC 2024 可以看到,Arm CPU+GPU 性能与能效双管齐下,NVIDIA Grace Hopper 开启了 AI 超级计算新时代。未来随着 Grace Blackwell 投入市场,凭借 Blackwell 架构在 FP64 精度上比 Hopper 架构高出 30% 的性能表现,超算系统将有更多选择。
ISC 2024 以「重塑超算(Reinventing HPC)」为主题,在 ISC 2024 展区,超算与 AI 融合方案也随处可见,众多 HPC 系统均采用了如 NVIDIA Grace Hopper 等 CPU+GPU 的融合架构,HPC 与 AI 融合新趋势也越来越成为行业共识。