AI大模型算力：为什么H20的推理性价比高？

智能计算芯世界 2024-12-24 08:00 1975浏览 0评论 0点赞

汽车智能照明背后的“黑科技”传感器，你知道吗？ 加速脱碳并实现交通运输与能源网融合的解决方案

本文来自“AI的裂变时刻”系列报告合集（1）AI的裂变时刻”系列报告：为什么H20的推理性价比高？”，基于出口管制要求，NVIDIA为中国市场定制了H20、L20等产品。从表观参数来看，H20的FP16、INT8等主要算力参数仅为A100的不足1/2，更是仅为H100的约1/7；L20的主要算力参数相较于L40、L40S分别下降约1/3、2/3。

这些最新的针对中国市场定制的产品算力参数被大幅阉割，使得市场大多对其性能表现、性价比持悲观或怀疑态度。基于理论计算，研究了H20、L20等产品在大模型推理端的性能表现；推算结果显示，H20、L20均展现出较优异的推理性能。

「重磅合集」本星球合集资源链接，进入链接检索内容，根据提示均可下载：

1、《70+篇半导体行业“研究框架”合集》

2、《55+份智能网卡和DPU合集》

3、《14份半导体“AI的iPhone时刻”系列合集》

4、《21份走进“芯”时代系列深度报告合集》

5、《800+份重磅ChatGPT专业报告》

6、《92份GPU技术及白皮书汇总》

H20推理性能优于A100、H100，仅略逊于H200。分别使用单张H20、A100、H100、H200进行推理，推理场景为：Llama2-13B模型，数据格式FP16，Batch Size=16；3组输入输出，输入/输出Tokens数量分别为128/3968、512/3584、2048/2048。以整个推理阶段推理系统平均每秒输出（单位：Tokens/s）作为推理能力衡量标准。

参考图，在3组推理场景下，H20的推理速度均明显优于A100,；在前两组推理场景下，H20的推理速度优于H100，第三组推理场景下H20与H100推理速度基本持平。取三组平均值，H20平均推理速度是A100的1.8倍，是H100的1.1倍。

L20推理性能与L40、L40S基本相同。分别使用单张L40S、L40、L20进行推理，推理场景为：Llama2-7B模型，数据格式FP16，Batch Size=16；3组输入输出，输入/输出Tokens数量分别为128/3968、512/3584、2048/2048。以整个推理阶段推理系统平均每秒输出（单位：Tokens/s）作为推理能力衡量标准。

参考图，在前两组推理场景中，L40S、L40、L20的推理速度无明显差异；仅在最后一组场景（ISL/OSL2048/2048）中，L40S推理速度相较于L40、L20优势较明显。取三组平均值，L20推理速度仅比L40S速度慢约2%。

为什么算力被大幅阉割的H20会有如此优异的推理性能表现？

在接下来的两个章节，我们将分别分析推理过程中Prefill环节、Decode环节H20的推理性能表现。

Prefill是算力密集场景，H20 受算力制约性能表现较弱

Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算；显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下（如输入Tokens较长、或Batch Size较大），Prefill阶段计算耗时高于显存传输的耗时，因此该环节的耗时（也被称为First token latency）通常是由算力芯片的算力能力决定，Prefill阶段属于算力密集场景。

参考表，由于H20的算力较弱，在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时，用户从完成问题输入、到看到问题第一个文字的输出，中间需要等待较长时间。

Decode 是显存带宽密集场景，H20性能表现优异

在Prefill阶段结束后，大模型开始生成回答，该过程被称为Decode。由于Decode过程中，回答的Tokens必须逐个生成，且每个Token生成过程中，都需要重复一次参数从HBM向算力芯片的传输，且Decode阶段不断扩大的KV Cache也需要在HBM和算力芯片间往复传输，使得Decode阶段通常显存传输耗时明显高于计算耗时；Decode阶段属于显存带宽密集场景，更高的显存带宽对加速Decode至关重要。

参考表，由于H20具有较高的显存带宽，在Decode阶段H20每生成1个Token所需时间低于A100、H100，这也使得H20在整个推理过程具有较高的推理速度。

H20在多数推理场景中性能优异、性价比高

多数应用场景下，站在H20推理使用用户角度，在输入问题后，等待界面出现第一个回答文字的等待时间会较长（相较于使用A100/H100/H200进行推理），但考虑到这一时长也仅为2.8s，对用户使用体验的负面影响是有限的。（备注：实际用户等待时间还包括网络延迟、用户端侧延迟等）

而在回答开始后，使用H20的用户会体验到回答生成速度较快（相较于使用A100/H100进行推理），每秒57个Tokens的生成速度明显高于人类阅读速度。（备注：通常每秒生成20个及以上Tokens就能给用户带来较舒适的在线阅读体验）

站在H20持有人角度，持有人更关心一个推理系统Throughput的速度，因为对相同一套推理系统或成本相近的不同推理系统，平均Throughput（Tokens/s）越高，意味着每Token所平摊的系统硬件成本越低。从性价比角度看，假设H20与H100售价相近，在多数情况下，H20也有望成为性价比更高的推理芯片选择。

下载链接：

半导体行业系列专题：晶圆代工，特色工艺蓬勃发展，自主可控成果显著

AI的裂变时刻”系列报告合集（2）

AI的裂变时刻”系列报告合集（1）

人工智能行业AI硬件全景洞察报告：下一波AI创新机遇在物理空间（2024）

中国移动：智能体通信网络（ACN）白皮书

豆包出圈：解析字节的AI终端布局

AI基础设施篇：AI新视觉，从算力之争到能源之争

中国计算机和软件：模型即服务（MaaS）

智算产业趋势展望：数据智能时代到来（2024）

《2024年生成式AI大会（实践篇）》

1、豆包MarsCode落地编程助手场景的探索与实战 2、多模态LLM在云音乐推荐场景的落地应用 3、腾讯游戏知几语音合成大模型推理实践 4、多模态大语言模型领域进展分享

《2024年生成式AI大会（RAG生成检索篇）》

1、RAG 2.0引擎的设计挑战和实现 2、GraphRAG进展分享 3、基于大模型的生成式检索 4、增强AI能力的Agent实践RAG与Tool Use的协同效应 5、RAG在办公领域中的探索与实践

伽马数据：人工智能行业研究报告（2024.10）

2024新技术前瞻专题系列合集

SSD闪存技术基础知识全解（知识星球版）

服务器基础知识全解（知识星球版）

存储系统基础知识全解（知识星球版）

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1660篇粉丝：207人

关注  私信

AI大模型算力：为什么H20的推理性价比高？

立即预约直播：半导体设计及工艺仿真全解析

最近文章

热门文章

推荐

最新资讯