NVIDIAGraceHopper超级芯片横扫MLPerf推理基准测试

英伟达NVIDIA中国 2023-09-12 20:29

从云端到网络边缘,NVIDIA GH200、H100 和 L4 GPU 以及 Jetson Orin 模组在运行生产级 AI 时均展现出卓越性能。



NVIDIA GH200 Grace Hopper 超级芯片首次亮相 MLPerf 行业基准测试,其运行了所有数据中心推理测试,进一步扩大了 NVIDIA H100 Tensor Core GPU 的领先优势。


总体测试结果表明,NVIDIA AI 平台无论是在云端还是网络边缘均展现出卓越的性能和通用性。


此外,NVIDIA 宣布推出全新推理软件,该软件将为用户带来性能、能效和总体拥有成本的大幅提升。


GH200 超级芯片在 MLPerf 一骑绝尘


GH200 将一颗 Hopper GPU 和一颗 Grace CPU 连接到一个超级芯片中。这种组合提供了更大内存、更快带宽,能够在 CPU 和 GPU 之间自动切换计算所需要的资源,实现性能最优化。


具体而言,内置 8 颗 H100 GPU 的 NVIDIA HGX H100系统,在本轮每项 MLPerf 推理测试中均实现了最高吞吐量。


Grace Hopper 超级芯片和 H100 GPU 在所有 MLPerf 数据中心测试中均处于领先地位,包括针对计算机视觉、语音识别和医学成像的推理,以及应用于生成式 AI 的推荐系统和大语言模型(LLM) 等对性能要求更高的用例。


总体而言,此次测试结果延续了自 2018 年 MLPerf 基准测试推出以来,NVIDIA 在每一轮 AI 训练和推理中都处于领先性能的纪录。


最新一轮 MLPerf 测试包括一项更新的推荐系统测试,并新增首个 GPT-J 上的推理基准测试。GPT-J 是一个由 60 亿个参数组成的大语言模型(LLM),而 AI 模型的大小通常根据它有多少参数来衡量。


TensorRT-LLM 大幅提升推理能力


为了应对各类复杂的工作负载,NVIDIA 开发了一款能够优化推理的生成式 AI 软件——TensorRT-LLM。该开源库使客户能够在不增加成本的情况下将现有 H100 GPU 的推理性能提升两倍以上。由于时间原因,TensorRT-LLM 没有参加 8 月的 MLPerf 提交。



NVIDIA 的内部测试表明, 在运行 GPT-J 6B 模型时,相较于没有使用 TensorRT-LLM 的上一代 GPU,在 H100 GPU 上使用 TensorRT-LLM 能够实现高达 8 倍的性能提升。


该软件始于 NVIDIA 在对 Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(现为 Databricks 的一部分)、OctoML、Tabnine 和Together AI 等领先公司进行加速和优化 LLM 推理时所做的工作。


MosaicML 在 TensorRT-LLM 的基础上添加了所需的功能,并将这些功能集成到他们现有的服务堆栈中。Databricks 工程副总裁 Naveen Rao 表示:“这已成为相当轻而易举的事情。”


Rao 补充说:“TensorRT-LLM 简单易用、功能丰富且高效。它为正在使用 NVIDIA GPU 的 LLM 服务提供了最先进的性能,并使我们能够将节省的成本回馈给我们的客户。”


TensorRT-LLM 是 NVIDIA 全栈 AI 平台持续创新的最新实例。这类持续的软件进步为用户带来了无需额外成本即可实现随着时间不断提升的性能,并且广泛适用于多样化的 AI 工作负载。


L4 为主流服务器增强推理能力


在最新 MLPerf 基准测试中,NVIDIA L4 GPU 运行了所有工作负载,并全面展现了出色的性能。


例如,在紧凑型 72W PCIe 加速器中运行时,L4 GPU 的性能比功耗超出其近 5 倍的 CPU 提高了 6 倍。


此外,L4 GPU 具有专用媒体引擎,与 CUDA 软件搭配使用,在 NVIDIA 的测试中为计算机视觉提供了高达 120 倍的加速。


谷歌云和许多系统制造商现已支持 L4 GPU,为从消费互联网服务到药物研发各行业的客户提供服务。


大幅提升边缘性能


此外,NVIDIA 采用了一种全新模型压缩技术来展示在一个 L4 GPU 上运行 BERT LLM 的性能提升高达 4.7 倍。该结果体现在 MLPerf 的“开放分区”中,这个类别旨在展示新能力。


这项技术有望应用于所有 AI 工作负载。它尤其适用于在空间和功耗受限的边缘设备上运行模型。


在另一个体现边缘计算领导力的例证中,NVIDIA Jetson Orin 模块化系统将边缘 AI 和机器人应用场景中常见的计算机视觉用例——目标检测的性能比上一轮测试提升高达 84%。



Jetson Orin 性能的提升得益于软件可以充分利用该芯片的最新核心,如一个可编程视觉加速器、一颗 NVIDIA Ampere 架构 GPU 和一个专用深度学习加速器等。


灵活的性能与庞大的生态


MLPerf 基准测试是透明且客观的,因此用户可以根据其结果做出明智的购买决定。该测试还涵盖了丰富的用例和场景,能够让用户获得可靠且可以灵活部署的性能。


本轮提交测试结果的合作伙伴包括微软 Azure 和 Oracle Cloud Infrastructure 等云服务提供商以及华硕、Connect Tech、戴尔科技、富士通、技嘉、惠与、联想、QCT、超微等系统制造商。


总体而言,MLPerf 已得到 70 多家机构的支持,包括阿里巴巴、Arm、思科、谷歌、哈佛大学、英特尔、Meta、微软和多伦多大学等。


NVIDIA 在基准测试中使用的所有软件均可从 MLPerf 软件库中获得,因此每个人都能实现全球领先的结果。我们不断将这些优化措施整合到 NVIDIA NGC 软件中心的容器中供 GPU 应用使用。


点击“阅读原文”阅读技术博客,详细了解我们如何实现这些最新的成果。


GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。扫描下方海报二维码,关注更多会议及活动信息。


评论 (0)
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 449浏览
  •  一、‌核心降温原理‌1、‌液氮媒介作用‌液氮恒温器以液氮(沸点约77K/-196℃)为降温媒介,通过液氮蒸发吸收热量的特性实现快速降温。液氮在内部腔体蒸发时形成气-液界面,利用毛细管路将冷媒导入蒸发器,强化热交换效率。2、‌稳态气泡控温‌采用‌稳态气泡原理‌:调节锥形气塞与冷指间隙,控制气-液界面成核沸腾条件,使漏热稳定在设定值。通过控温仪调整加热功率,补偿漏热并维持温度平衡,实现80K-600K范围的快速变温。二、‌温度控制机制‌1、‌动态平衡调节‌控温仪内置模糊控制系统,通过温度
    锦正茂科技 2025-04-30 11:31 41浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 546浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 84浏览
  • 在全球制造业加速向数字化、智能化转型的浪潮中,健达智能作为固态照明市场的引领者和智能电子以及声学产品的创新先锋,健达智能敏锐捕捉到行业发展的新机遇与新挑战,传统制造模式已难以满足客户对品质追溯、定制化生产和全球化布局的需求。在此背景下, 健达智能科技股份有限公司(以下简称:健达智能)与盘古信息达成合作,正式启动IMS数字化智能制造工厂项目,标志着健达智能数字化转型升级迈入新阶段。此次项目旨在通过部署盘古信息IMS系统,助力健达实现生产全流程的智能化管控,打造照明行业数字化标杆。行业趋势与企业挑战
    盘古信息IMS 2025-04-30 10:13 50浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 303浏览
  • 文/郭楚妤编辑/cc孙聪颖‍越来越多的企业开始蚕食动力电池市场,行业“去宁王化”态势逐渐明显。随着这种趋势的加强,打开新的市场对于宁德时代而言至关重要。“我们不希望被定义为电池的制造者,而是希望把自己称作新能源产业的开拓者。”4月21日,在宁德时代举行的“超级科技日”发布会上,宁德时代掌门人曾毓群如是说。随着宁德时代核心新品骁遥双核电池的发布,其搭载的“电电增程”技术也走进业界视野。除此之外,经过近3年试水,宁德时代在换电业务上重资加码。曾毓群认为换电是一个重资产、高投入、长周期的产业,涉及的利
    华尔街科技眼 2025-04-28 21:55 213浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 85浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 338浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 311浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 343浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 290浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 83浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦