AI大模型算力:为什么H20的推理性价比高?

智能计算芯世界 2024-12-24 08:00

本文来自“AI的裂变时刻”系列报告合集(1)AI的裂变时刻”系列报告:为什么H20的推理性价比高?”,基于出口管制要求,NVIDIA为中国市场定制了H20L20等产品。从表观参数来看,H20FP16INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7L20的主要算力参数相较于L40L40S分别下降约1/32/3

这些最新的针对中国市场定制的产品算力参数被大幅阉割,使得市场大多对其性能表现、性价比持悲观或怀疑态度。基于理论计算,研究了H20L20等产品在大模型推理端的性能表现;推算结果显示,H20L20均展现出较优异的推理性能。

重磅合集」本星球合集资源链接,进入链接检索内容,根据提示均可下载:
1、《70+篇半导体行业“研究框架”合集》
2、《55+份智能网卡和DPU合集》
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》

5、《800+份重磅ChatGPT专业报告

6、《92份GPU技术及白皮书汇总》

H20推理性能优于A100H100,仅略逊于H200分别使用单张H20A100H100H200进行推理,推理场景为:Llama2-13B模型,数据格式FP16Batch Size=163组输入输出,输入/输出Tokens数量分别为128/3968512/35842048/2048。以整个推理阶段推理系统平均每秒输出(单位:Tokens/s)作为推理能力衡量标准。

参考图,在3组推理场景下,H20的推理速度均明显优于A100,;在前两组推理场景下,H20的推理速度优于H100,第三组推理场景下H20H100推理速度基本持平。取三组平均值,H20平均推理速度是A1001.8倍,是H1001.1倍。

L20推理性能与L40L40S基本相同。分别使用单张L40SL40L20进行推理,推理场景为:Llama2-7B模型,数据格式FP16Batch Size=163组输入输出,输入/输出Tokens数量分别为128/3968512/35842048/2048。以整个推理阶段推理系统平均每秒输出(单位:Tokens/s)作为推理能力衡量标准。

参考图,在前两组推理场景中,L40SL40L20的推理速度无明显差异;仅在最后一组场景(ISL/OSL2048/2048)中,L40S推理速度相较于L40L20优势较明显。取三组平均值,L20推理速度仅比L40S速度慢约2%

为什么算力被大幅阉割的H20会有如此优异的推理性能表现?

在接下来的两个章节,我们将分别分析推理过程中Prefill环节、Decode环节H20的推理性能表现。

Prefill是算力密集场景,H20 受算力制约性能表现较弱

Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下(如输入Tokens较长、或Batch Size较大),Prefill阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency)通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。

参考表,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。

Decode 是显存带宽密集场景,H20性能表现优异

Prefill阶段结束后,大模型开始生成回答,该过程被称为Decode。由于Decode程中,回答的Tokens必须逐个生成,且每个Token生成过程中,都需要重复一次参数从HBM向算力芯片的传输,且Decode阶段不断扩大的KV Cache也需要在HBM和算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时;Decode阶段属于显存带宽密集场景,更高的显存带宽对加速Decode至关重要。

参考表,由于H20具有较高的显存带宽,在Decode阶段H20每生成1Token所需时间低于A100H100,这也使得H20在整个推理过程具有较高的推理速度。

H20在多数推理场景中性能优异、性价比高

多数应用场景下,站在H20推理使用用户角度,在输入问题后,等待界面出现第一个回答文字的等待时间会较长(相较于使用A100/H100/H200进行推理),但考虑到这一时长也仅为2.8s,对用户使用体验的负面影响是有限的。(备注:实际用户等待时间还包括网络延迟、用户端侧延迟等)

而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用A100/H100进行推理),每秒57Tokens的生成速度明显高于人类阅读速度。(备注:通常每秒生成20个及以上Tokens就能给用户带来较舒适的在线阅读体验)

站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同一套推理系统或成本相近的不同推理系统,平均ThroughputTokens/s)越高,意味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20H100售价相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。

下载链接:
半导体行业系列专题:晶圆代工,特色工艺蓬勃发展,自主可控成果显著
AI的裂变时刻”系列报告合集(2)
AI的裂变时刻”系列报告合集(1)
人工智能行业AI硬件全景洞察报告:下一波AI创新机遇在物理空间(2024)
中国移动:智能体通信网络(ACN)白皮书
豆包出圈:解析字节的AI终端布局
AI基础设施篇:AI新视觉,从算力之争到能源之争
中国计算机和软件:模型即服务(MaaS)
智算产业趋势展望:数据智能时代到来(2024)
《2024年生成式AI大会(实践篇)》
1、豆包MarsCode落地编程助手场景的探索与实战 2、多模态LLM在云音乐推荐场景的落地应用 3、腾讯游戏知几语音合成大模型推理实践 4、多模态大语言模型领域进展分享
《2024年生成式AI大会(RAG生成检索篇)》
1、RAG 2.0引擎的设计挑战和实现 2、GraphRAG进展分享 3、基于大模型的生成式检索 4、增强AI能力的Agent实践RAG与Tool Use的协同效应 5、RAG在办公领域中的探索与实践
伽马数据:人工智能行业研究报告(2024.10)
2024新技术前瞻专题系列合集
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。



智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 文/Leon编辑/cc孙聪颖‍步入 2025 年,国家进一步加大促消费、扩内需的政策力度,家电国补政策将持续贯穿全年。这一利好举措,为行业发展注入强劲的增长动力。(详情见:2025:消费提振要靠国补还是“看不见的手”?)但与此同时,也对家电企业在战略规划、产品打造以及市场营销等多个维度,提出了更为严苛的要求。在刚刚落幕的中国家电及消费电子博览会(AWE)上,家电行业的竞争呈现出胶着的态势,各大品牌为在激烈的市场竞争中脱颖而出,纷纷加大产品研发投入,积极推出新产品,试图提升产品附加值与市场竞争力。
    华尔街科技眼 2025-04-01 19:49 210浏览
  • 职场之路并非一帆风顺,从初入职场的新人成长为团队中不可或缺的骨干,背后需要经历一系列内在的蜕变。许多人误以为只需努力工作便能顺利晋升,其实核心在于思维方式的更新。走出舒适区、打破旧有框架,正是让自己与众不同的重要法宝。在这条道路上,你不只需要扎实的技能,更需要敏锐的观察力、不断自省的精神和前瞻的格局。今天,就来聊聊那改变命运的三大思维转变,让你在职场上稳步前行。工作初期,总会遇到各式各样的难题。最初,我们习惯于围绕手头任务来制定计划,专注于眼前的目标。然而,职场的竞争从来不是单打独斗,而是团队协
    优思学院 2025-04-01 17:29 200浏览
  • 退火炉,作为热处理设备的一种,广泛应用于各种金属材料的退火处理。那么,退火炉究竟是干嘛用的呢?一、退火炉的主要用途退火炉主要用于金属材料(如钢、铁、铜等)的热处理,通过退火工艺改善材料的机械性能,消除内应力和组织缺陷,提高材料的塑性和韧性。退火过程中,材料被加热到一定温度后保持一段时间,然后以适当的速度冷却,以达到改善材料性能的目的。二、退火炉的工作原理退火炉通过电热元件(如电阻丝、硅碳棒等)或燃气燃烧器加热炉膛,使炉内温度达到所需的退火温度。在退火过程中,炉内的温度、加热速度和冷却速度都可以根
    锦正茂科技 2025-04-02 10:13 73浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 193浏览
  • 随着汽车向智能化、场景化加速演进,智能座舱已成为人车交互的核心承载。从驾驶员注意力监测到儿童遗留检测,从乘员识别到安全带状态判断,座舱内的每一次行为都蕴含着巨大的安全与体验价值。然而,这些感知系统要在多样驾驶行为、复杂座舱布局和极端光照条件下持续稳定运行,传统的真实数据采集方式已难以支撑其开发迭代需求。智能座舱的技术演进,正由“采集驱动”转向“仿真驱动”。一、智能座舱仿真的挑战与突破图1:座舱实例图智能座舱中的AI系统,不仅需要理解驾驶员的行为和状态,还要同时感知乘员、儿童、宠物乃至环境中的潜在
    康谋 2025-04-02 10:23 98浏览
  • 北京贞光科技有限公司作为紫光同芯授权代理商,专注于为客户提供车规级安全芯片的硬件供应与软件SDK一站式解决方案,同时配备专业技术团队,为选型及定制需求提供现场指导与支持。随着新能源汽车渗透率突破40%(中汽协2024数据),智能驾驶向L3+快速演进,车规级MCU正迎来技术范式变革。作为汽车电子系统的"神经中枢",通过AEC-Q100 Grade 1认证的MCU芯片需在-40℃~150℃极端温度下保持μs级响应精度,同时满足ISO 26262 ASIL-D功能安全要求。在集中式
    贞光科技 2025-04-02 14:50 128浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 149浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 202浏览
  • 在智能交互设备快速发展的今天,语音芯片作为人机交互的核心组件,其性能直接影响用户体验与产品竞争力。WT588F02B-8S语音芯片,凭借其静态功耗<5μA的卓越低功耗特性,成为物联网、智能家居、工业自动化等领域的理想选择,为设备赋予“听得懂、说得清”的智能化能力。一、核心优势:低功耗与高性能的完美结合超低待机功耗WT588F02B-8S在休眠模式下待机电流仅为5μA以下,显著延长了电池供电设备的续航能力。例如,在电子锁、气体检测仪等需长期待机的场景中,用户无需频繁更换电池,降低了维护成本。灵活的
    广州唯创电子 2025-04-02 08:34 152浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 166浏览
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 145浏览
  • 文/郭楚妤编辑/cc孙聪颖‍不久前,中国发展高层论坛 2025 年年会(CDF)刚刚落下帷幕。本次年会围绕 “全面释放发展动能,共促全球经济稳定增长” 这一主题,吸引了全球各界目光,众多重磅嘉宾的出席与发言成为舆论焦点。其中,韩国三星集团会长李在镕时隔两年的访华之行,更是引发广泛热议。一直以来,李在镕给外界的印象是不苟言笑。然而,在论坛开幕前一天,李在镕却意外打破固有形象。3 月 22 日,李在镕与高通公司总裁安蒙一同现身北京小米汽车工厂。小米方面极为重视此次会面,CEO 雷军亲自接待,小米副董
    华尔街科技眼 2025-04-01 19:39 209浏览
  • 探针本身不需要对焦。探针的工作原理是通过接触被测物体表面来传递电信号,其精度和使用效果取决于探针的材质、形状以及与检测设备的匹配度,而非对焦操作。一、探针的工作原理探针是检测设备中的重要部件,常用于电子显微镜、坐标测量机等精密仪器中。其工作原理主要是通过接触被测物体的表面,将接触点的位置信息或电信号传递给检测设备,从而实现对物体表面形貌、尺寸或电性能等参数的测量。在这个过程中,探针的精度和稳定性对测量结果具有至关重要的影响。二、探针的操作要求在使用探针进行测量时,需要确保探针与被测物体表面的良好
    锦正茂科技 2025-04-02 10:41 71浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦