英伟达发布B200测试结果:FP4比H100快4倍

EETOP 2024-08-29 12:44

重磅新课5折优惠即将结束!
ESD与Latch-up:高抗性与解决方案数字中后端课程
DFT设计与实现(理论)DFT设计与实现(实践)
英伟达(Nvidia)发布了其 Blackwell B4.1 GPU的第一个 MLPerf 200 结果。结果显示,Blackwell GPU 的性能是其基于 Hopper 架构的前身 H100 的四倍,凸显了英伟达作为 AI 硬件领导者的地位。但是,我们需要指出一些注意事项和免责声明。

根据英伟达的结果,基于Blackwell 的 B200 GPU 在服务器推理测试中在单个 GPU 上提供 10755 个tokens/秒,在离线参考测试中提供 11264 个tokens/秒。从其公开可用的 MLPerf Llama 2 70B 基准测试结果
https://public.tableau.com/app/profile/data.visualization6666/viz/MLCommons-InferenceDatacenter/MLCommons-Inference
发现基于 4 路 Hopper H100 的机器提供了类似的结果,这证明了英伟达的说法,即单个 Blackwell 处理器比单个 Hopper H100 GPU 快约 3.7 倍至 4 倍。但我们需要剖析这些数字以更好地理解它们。

首先,英伟达的 Blackwell 处理器使用 FP4 精度,因为其第五代 Tensor Core 支持该格式,而基于 Hopper 的 H100 仅支持和使用 FP8。MLPerf 指南允许这些不同的格式,但 Blackwell 中的 FP4 性能使其 FP8 吞吐量翻了一番,因此这是第一个需要注意的重要事项。

接下来,英伟达在使用单个 B200 与四个 H100 GPU 方面有些虚伪。扩展从来都不是完美的,因此单个 GPU 往往是每个 GPU 性能的最佳情况。MLPerf 4.1 没有列出单个 GPU H100 结果,只有一个 B200 结果。然而,单个 H200 达到了 4,488 个tokens/秒,这意味着 B200 在该特定比较中仅快了 2.5 倍。

内存容量和带宽也是关键因素,并且存在很大的代际差异。经过测试的 B200 GPU 配备 180GB HBM3E 内存,H100 SXM 配备 80GB HBM(某些配置高达 96GB),H200 配备 96GB HBM3 和高达 144GB 的 HBM3E。具有 96GB HBM3 的单个 H200 在离线模式下仅达到 3,114 个tokens/秒。

因此,数字格式、GPU 数量、内存容量和配置方面存在潜在差异,这些差异会影响“高达 4 倍”的数字。其中许多差异仅仅是因为 Blackwell B200 是一款具有更新架构的新芯片,而所有这些都影响了其最终性能。

回到配备 141GB HBM3E 内存的英伟达H200,它不仅在以 Llama 2 70B 大型语言模型为特色的生成式 AI 基准测试中也表现出色,而且在数据中心类别的每一项测试中都表现出色。出于显而易见的原因,在利用 GPU 内存容量的测试中,它的速度明显快于 H100。

目前,英伟达只公布了其 B200 在 MLPerf 4.1 生成式 AI 基准测试中 Llama 2 70B 模型的性能表现。至于这是因为它仍在进行调优,还是其他原因,我们无法确定,但 MLPerf 4.1 有九个核心测试项目,而现在我们只能猜测 Blackwell B200 如何应对其他测试。

芯片精品课程推荐

ESD课程已全部更新完毕!

再放20张五折优惠券,领完为止!

(本课提供在线答疑,购课后课添加微信:ssywtt 拉你入群)

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 160浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 207浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 149浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 171浏览
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 172浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 156浏览
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 211浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 204浏览
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 117浏览
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 125浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦