NVIDIA通过全栈创新推动高性能计算的发展

英伟达NVIDIA中国 2022-06-07 20:15

本文作者:

Ashraf Eassa NVIDIA 加速计算部门高级产品营销经理

Chris Porter  NVIDIA HPC & AI 高级技术营销经理


高性能计算(HPC)已经成为必不可少的科学研究工具。


无论是研发出拯救生命的新药,还是抵御气候变化,或是精确模拟我们的世界,这些解决方案都需要强大的处理能力,而且这一需求正在快速增长,日益超出传统计算方法能够应对的范畴。


因此,业界纷纷采用 NVIDIA 的 GPU 进行加速计算。结合 AI,它能带来数百万倍的性能加速,推动科学的进步。如今,已有 2700 个应用受益于 NVIDIA GPU 加速,而在日益增长的 300 万开发者共同组成的社区支持下,这一数字仍在不断攀升。


HPC 应用性能提升


为将所有 HPC 应用的速度提升数倍,我们需要在堆栈的每个层面进行不断的创新,包括芯片、系统以及应用框架本身。


随着架构和 NVIDIA 软件栈整体上的不断进步, NVIDIA 平台的性能每年都会显著提高。与六年前发布的 P100 相比, H100 Tensor Core GPU 的性能提高 26 倍,比摩尔定律快 3 倍以上。


从 P100 到 H100 的 NVIDIA HPC + AI 平台性能


NVIDIA HPC SDK 为每项功能提供开发者资产


NVIDIA 平台的核心是一个功能丰富的高性能软件堆栈。为了方便各种 HPC 应用实现 GPU 加速,该平台加入了 NVIDIA HPC SDK。SDK 使开发者能够使用标准语言、导语指令以及 CUDA 来编写和移植 GPU 加速应用,为开发者带来了无与伦比的灵活性。


NVIDIA HPC SDK 的强大之处在于其庞大且高度优化的 GPU 加速数学库,使用户能够充分发挥 NVIDIA GPU 的性能潜力。为了实现最佳的多 GPU 和多节点扩展性能, NVIDIA HPC SDK 还提供强大的通信库:


  • NVSHMEM 为跨多个 GPU 内存的数据创建了一个全局地址空间。

  • NVIDIA 集合通信库(NCCL)优化了 GPU 之间的通信。


总之,该平台提供最高的性能和灵活性,为庞大的、不断增长的 GPU 加速 HPC 应用提供支持。


HPC 的性能和能效


为了展示 NVIDIA 全栈创新如何助力加速 HPC 实现最高性能, 我们将一台配备 4 颗 NVIDIA GPU 的慧与(HPE)服务器与一台配备另一家厂商同等数量加速器模块且配置相似的服务器进行了性能比较。


我们使用多种算例测试了广泛使用的五个 HPC 应用。尽管在各个行业中有约 2700 个应用基于 NVIDIA 平台实现了加速,但由于另一家厂商的加速器只支持部分软件和应用版本,我们在此次比较中所能使用的应用有限。


对于除 NAMD (用于分子动力学模拟的软件)以外的所有应用,我们首先获得多个算例的结果,然后使用它们的几何平均值作为计算结果,这样可以将异常值的影响最小化并反映客户的体验。


我们还在多 GPU 和单 GPU 场景下测试了这些应用。


在多 GPU 场景中,测试系统中的所有加速器都被用来运行一个模拟,基于 A100 Tensor Core GPU 的服务器所提供的性能比起另一台服务器高出 2.1 倍。


NVIDIA A100 4x GPU 性能对比


得益于计算性能的持续进步,分子动力学领域正朝着模拟更大的原子体系和更长的时间的方向发展。这使研究者能够模拟越来越多的生物化学机制,例如光合电子传递和视觉信号转导。对于此类过程,由于模拟这一主要验证方式耗时过长,之前无法通过模拟来对其进行验证,导致这类过程也一直引发科学界的争论。


但我们认识到,并非所有用户都会在每次模拟时使用多个 GPU 运行。为了获得最佳吞吐量,最好的方法往往是为每次模拟分配一个 GPU。


当在单一加速器模块( NVIDIA A100 上一个的完整 GPU 和另一款产品上的两个计算芯片)上运行这些应用时,基于 NVIDIA A100 的系统提供了高达 1.9 倍的性能。


NVIDIA A100 1x GPU 性能对比


电力成本占据了数据中心和超级计算中心总拥有成本(TCO)中的很大一部分,这突出了高能效计算平台的重要性。根据我们的测试, NVIDIA 平台的每瓦吞吐量比其他产品高 2.8 倍。


NVIDIA A100 能效对比


图中所示的是 A100 与 MI250 的效率比,这个比值越高越好。每个应用在多个算例上的几何平均值。效率指 GPU 性能/功耗(瓦),使用 NVIDIA SMI 和 ROCm 中的同等功能命令测量。


AMD MI250 在技嘉 M262-HD5-00 上使用(2个) AMD EPYC 7763 和 4x AMD Instinct™ MI250 OAM (128 GB HBM2e)500W GPU 以及 AMD Infinity Fabric™ 技术测得。NVIDIA 在 ProLiant XL645d Gen10 Plus 上使用双 EPYC 7713 CPU 和 4x A100 (80 GB) SXM4 测试。


LAMMPS develop_db00b49(AMD) develop_2a35ec2(NVIDIA) datasets ReaxFF/c, Tersoff, Leonard-Jones, SNAP | NAMD 3.0alpha9 dataset STMV_NVE | OpenMM 7.7.0 Ensemble runs for datasets: amber20-stmv, amber20-cellulose, apoa1pme, pme|?


GROMACS 2021.1(AMD) 2022(NVIDIA) datasets  ADH-Dodec (h-bond), STMV (h-bond) | AMBER 20.xx_rocm_mr_202108(AMD) and 20.12-AT_21.12 (NVIDIA) datasets Cellulose_NVE, STMV_NVE | 1x MI250 has 2x GCD


多年来, 我们为了最大限度地提高应用性能和效率而坚持不懈地进行软硬件协同优化,最终打造出具有卓越性能和能效的 NVIDIA A100 GPU。欲进一步了解 NVIDIA Ampere 架构,请参见 NVIDIA A100 Tensor Core GPU 白皮书。


A100 在操作系统中也表现为一个单一的处理器,只需要启动一个 MPI 线程就可以充分发挥它的性能。而且由于一个节点中所有 GPU 之间都采用 600-GB/s NVLink 互联,因此 A100 可以提供出色的扩展性能。


AI 与 HPC 的融合


正如加速计算将模拟和仿真应用的速度提高了数倍, AI 和 HPC 的结合也将进一步提升性能,推动下一波科学研究的发展。


从我们首次提交 MLPerf 训练结果到最近一次提交,已有三年的时间。在这三年里, NVIDIA 平台在这套由同行评审的行业标准基准测试中将深度学习性能提高了 20 倍。这些成果来自于芯片、软件和规模上的全面提高。


NVIDIA 三年以来的性能提升


科学家和研究者已在使用 AI 大幅提升性能,加快科学研究的速度。


  • 使识别引力波所需的时间减少为原来 10 万分之一。


  • 对呼吸道飞沫中的 Delta SARS-CoV-2 病毒(原子数超过 10 亿)进行模拟的速度提高 1000 倍。


  • 加速清洁聚变能源的发展。


  • 为余热锅炉(HRSG)工厂创建预测性数字孪生。


世界各地的超级计算中心都在持续使用加速 AI 超级计算机。


  • 阿贡领导力计算设施(ALCF)的 Polaris 超级计算机、美国国家能源研究科学计算中心(NERSC)的 Perlmutter、意大利多所大学组建的 CINECA 联盟建设的 Leonardo,均采用 A100 Tensor Core GPU 加速。


  • 即将在 2023 年上线的 Alps 超级计算机基于 NVIDIA 的 Grace Hopper 超级芯片打造而成。


  • 计划于 2023 年交付的洛斯阿拉莫斯国家实验室的 Venado 系统,将包含 Grace Hopper 超级芯片以及 Grace CPU 超级芯片节点。


欲进一步了解最新性能数据,请点击阅读原文,参见 HPC 应用性能



「GPU 加速高性能计算(HPC)经典应用在线研讨会」,聚焦经典高性能计算和科学计算应用,以及如何在 GPU 平台更好的加速这些应用。


NVIDIA 三位技术专家分别于研讨会进行主题分享,并进行了现场答疑。欢迎扫描下方二维码收看详细内容:



评论 (0)
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 161浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 84浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 107浏览
  • 速卖通,作为阿里巴巴集团旗下的跨境电商平台,于2010年横空出世,彼时正值全球电商市场蓬勃发展,互联网的普及让跨境购物的需求日益增长,速卖通顺势而为,迅速吸引了全球目光。它以“让天下没有难做的生意”为使命,致力于打破国界限制,搭建起中国商家与全球消费者之间的桥梁。在其发展的黄金时期,速卖通取得的成绩令人瞩目。在欧洲市场,速卖通一度成为第一大电商平台。根据第三方机构《欧洲跨境商务》的评选,速卖通凭借出色的服务和消费者口碑,在“欧洲十大跨境电商平台”中脱颖而出,力压来自美国的亚马逊和eBay等电商巨
    用户1742991715177 2025-04-26 20:23 211浏览
  •  探针台的维护直接影响其测试精度与使用寿命,需结合日常清洁、环境控制、定期校准等多维度操作,具体方法如下:一、日常清洁与保养1.‌表面清洁‌l 使用无尘布或软布擦拭探针台表面,避免残留清洁剂或硬物划伤精密部件。l 探针头清洁需用非腐蚀性溶剂(如异丙醇)擦拭,检查是否弯曲或损坏。2.‌光部件维护‌l 镜头、观察窗等光学部件用镜头纸蘸取wu水jiu精从中心向外轻擦,操作时远离火源并保持通风。3.‌内部防尘‌l 使用后及时吹扫灰尘,防止污染物进入机械滑
    锦正茂科技 2025-04-28 11:45 87浏览
  • 探针台作为高精度测试设备,在光电行业的关键器件研发、性能测试及量产质量控制中发挥核心作用,主要涵盖以下应用场景与技术特性:一、光电元件性能测试1.‌光电器件基础参数测量‌l 用于LED、光电探测器、激光器等元件的电流-电压(I-V)特性、光功率、响应速度等参数测试,支撑光通信、显示技术的器件选型与性能优化。l 支持高频信号测试(如40GHz以上射频参数),满足高速光调制器、光子集成电路(PIC)的带宽与信号完整性验证需求。2.‌光响应特性分析‌l 通过电光转换效率测
    锦正茂科技 2025-04-27 13:19 126浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 243浏览
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 257浏览
  •   北京华盛恒辉电磁环境适应性测试系统是针对复杂电磁环境进行仿真、测试与评估的关键设备,以下从系统功能、技术架构、应用场景、核心优势、发展趋势五个维度展开全面解析:   应用案例   目前,已有多个电磁环境适应性测试系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁环境适应性测试系统。这些成功案例为电磁环境适应性测试系统的推广和应用提供了有力支持。   一、系统功能   复杂电磁环境构建   全生命周期测试能力   实时监测与反馈   二、技术架构   模块化设
    华盛恒辉l58ll334744 2025-04-26 17:21 200浏览
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 111浏览
  • 探针台作为半导体制造与测试的核心设备,通过精密定位与多环境适配能力,支撑芯片研发、生产及验证全流程。以下是其关键应用领域与技术特性:一、核心功能支撑1.‌电性能测试与分析‌l 在晶圆切割前,探针台直接接触芯片电极,测量阈值电压、漏电流、跨导等200余项参数,用于评估良品率及优化工艺设计。l 支持单晶体管I-V曲线测量,定位栅极氧化层厚度偏差(精度达0.2nm),为器件性能分析提供数据基础。2.‌纳米级定位与测量‌l 定位精度达±0.1μm,满足5nm及以下制程芯片的
    锦正茂科技 2025-04-27 13:09 154浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 136浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 111浏览
  •  集成电路封装测试是确保芯片性能与可靠性的核心环节,主要包括‌晶圆级测试(CP测试)‌和‌封装后测试(FT测试)‌两大阶段,流程如下:一、晶圆级测试(CP测试)1.‌测试目的‌:在晶圆切割前筛选出功能缺陷或性能不达标的晶粒(Die),避免后续封装环节的资源浪费,显著降低制造成本。2.‌核心设备与操作‌l ‌探针台(Prober)‌:通过高精度移动平台将探针与晶粒的Pad jing准接触,实现电气连接。l ‌ATE测试机‌:提供测试电源、信号输入及功能向量,接收晶粒反
    锦正茂科技 2025-04-27 13:37 200浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 128浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦