性能对比:GPGPU与ASIC之争

智能计算芯世界 2025-03-30 07:52
图片

本文来自“算力芯片系列:GPGPU与ASIC之争”。

1)算力方面,多数 ASIC 较少涉及高精度浮点数数据,聚焦于低精度领域且拥有相对而言更可观的功耗控制与能效比,但尽管在低精度领域,算力性能部分指标仍难以与同时期的 GPGPU 相媲美。

2)存力方面,ASIC 算力密度高,算数强度迭代快,但在显存带宽和容量上与 GPGPU仍有较大差距,近期表现亮眼的 LPU 则通过超高内存带宽突破性化解传统 GPU 的内存瓶颈。

3)互连方面,英伟达 NVLink 所能实现的 Scale-up 互连能力一骑绝尘,挑战英伟达 NVLink 的难度较大。ASIC 在特定性能上表现突出,但整体来看仍较难超越英伟达的市场地位。

本文所有资料都已上传至智能计算芯知识”星球。如“《清华大学:DeepSeek报告13部曲合集》”,“浙江大学:DeepSeek技术14篇(合集)”,“270+份DeepSeek技术报告合集”,“《100+份AI芯片技术修炼合集》”,“800+份重磅ChatGPT专业报告”,“《12+份Manus技术报告合集》,加入星球获取严选精华技术报告。

GPGPU 与 ASIC 性能对比一览

算力:精度与能效的差异化竞争

1)从精度范围来看,ASIC 较少涉及高精度浮点数数据,主要聚焦于低精度领域,这与其主要应用于大模型训练的定位相符。大模型训练过程中,低精度数据类型(如INT8FP16 等)足以满足大部分计算需求,并且能够在一定程度上减少计算量和存储需求,提高训练效率。

2)就低精度部分的算力性能而言,大厂自研的 ASIC 在一些指标上也难以与同时期的 GPGPU 相媲美。以英伟达 GB200 为例,FP16 达 5000,远超同时期 ASIC 数值。

3)在功耗和能效比方面,多数 ASIC 拥有相对而言更可观的功耗控制与能效比。通常,ASIC 由于其定制化的设计,专为特定任务(如大模型训练)优化,在执行特定任务时可能具有相对较低的功耗。

GPGPU 在执行相同任务时,由于其架构需要兼顾多种计算场景,功耗往往较高。例如,微软的 Maia 100 能效比高达 1.60,而同时期的英伟达 H200 为 1.41。但也有例外,如英伟达 A100 的能效比(0.78)高于同期谷歌TPU v4i0.39),呈现出兼顾普适性与高效性的特点。

存力:显存性能与算力密度的权衡角逐

1)从显存性能来看,自研 ASIC 在显存带宽和容量上与 GPGPU 仍有较大差距。GB200 依靠 HBM3e 技术拥有高达 16384GB/s 的带宽,这使其在处理大规模数据时能更高效地运行复杂任务。

2)从算力密度(算力/显存容量)来看,GPGPU 单位显存算力相对有限,ASIC 则以高算力密度在特定任务凸显优势。在实际应用中,较高的算力密度意味着在相同的显存资源下,芯片能够完成更多的计算任务。以谷歌 TPU v6e 为例,FP16 算力 1852,显存容量 32GB,算力密度约 57.88,展现出显存利用效率高、存力与算力协同性好的特征。

3)从算术强度(算力/显存带宽)来看,早期 ASIC 弱于同时期 GPU,但技术迭代速度快,22 年后实现反超。至 24 年,ASIC 芯片如 Meta MTIA v2算术强度达 885 FLOPs/Byte,是同期 GB200 算术强度的 2.8 倍。

4LPU 通过超高内存带宽突破性化解传统 GPU 的内存瓶颈。LPU 采用 230MB SRAM 集成设计,提供 80TB/s的峰值内存带宽。这种存力使每个计算单元可即时获取连续 token 序列,消除传统架构中因频繁访问外部显存产生的时钟周期损耗。该设计架构通过存力创造性释放算力潜能,为大模型推理提供数据供给保障,完成低算术强度任务性能创造性突破。

互连:NVLink 主导下的技术挑战与突破

1)单从纸面性能来看,英伟达 NVLink 所能实现的 Scale-up 互连能力一骑绝尘。GB200 所依赖的 NVLink5.0 技术能够实现 1.8TB/s 的互连速度,而其他厂商的 Scale-up互连大多以 PCIe 协议为基础,目前 PCIe5.0 技术单通道双向速率为 8GB/s16 通道可达 128GB/s,远远低于 NVLink 同代技术。

2)从技术节奏来看,挑战英伟达 NVLink 的难度较大。UALink 初代 V1.0 标准将于 25Q1 发布,NVLink1.0 早在 2016 年已应用于Pascal 架构 GPU

为什么大厂纷纷开始自研 AI 芯片?

通常来说一个芯片公司的支出有以下四个方面:员工薪资、EDA 和 IP 费用、芯片制造费用、销售费用。以谷歌 TPU 与博通外包服务模式为例,这其中有部分由博通承担,但最终谷歌都需要支付相应的价格,因此我们不做口径调整,依然按 Fabless 公司的研发投入模式来计算。据老石谈芯对哲库造芯团队的研发投入测算,对于一家数字芯片 Fabless 公司而言,员工薪资约占总支出 60%,占掉大部分的比重。

头部大厂的万卡集群建设未曾停歇,完全有望覆盖自研 ASIC 的前期投入。

1)训练端:从训练集群的规模上看,单一集群的需求量已逐渐超过 10 万卡。2023-24H1,各厂商陆续建成万卡集群,其中比较有代表性的是 Meta 于 24/03 月宣布的两个 24k GPU集群(共 49152 个 H100)。24H2 以来市场最为关注的是 xAI 建设的 10 万卡 H100 集群,明年目标或将扩展至 100 万卡。

2)推理端:英伟达 FY2024 数据中心有 40%的收入来自推理业务。随着 AI 应用遍地开花,我们认为 AI 推理需求还有更大渗透空间。

未完待续,请参考完整版报告“算力芯片系列:GPGPU与ASIC之争”,“Agent实践指南:Manus没有秘密”,“2025年Manus智能体开启AI新范式的先锋探索”,“《科技龙头巡礼专题:华为技术合集》”,“把握DeepSeek时刻:华为昇腾AI解决方案”,“企业DeepSeek落地路径、架构及方案建议”,获取更多内容......

下载链接:

重磅合集
1、《70+篇半导体行业“研究框架”合集》
2、《56+份智能网卡和DPU合集
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解(星球版)》

《100+份AI芯片技术修炼合集》

《245+份DeepSeek技术报告合集》

《42篇半导体行业深度报告&图谱(合集)

亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势

SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)
2025新技术前瞻专题系列合集
《科技龙头巡礼专题:华为技术合集》
1、科技龙头巡礼专题(一):如何看待华为盘古大模型5.0? 
2、科技龙头巡礼专题(二):华为欧拉五问五答 
3、科技龙头巡礼专题(三):国产算力AI芯片专题,一文读懂华为昇腾310芯片

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。


图片

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索AI_Architect”或“扫码关注公众号实时掌握深度技术分享,点击阅读原文获取更多原创技术干货


图片
图片

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 文/郭楚妤编辑/cc孙聪颖‍不久前,中国发展高层论坛 2025 年年会(CDF)刚刚落下帷幕。本次年会围绕 “全面释放发展动能,共促全球经济稳定增长” 这一主题,吸引了全球各界目光,众多重磅嘉宾的出席与发言成为舆论焦点。其中,韩国三星集团会长李在镕时隔两年的访华之行,更是引发广泛热议。一直以来,李在镕给外界的印象是不苟言笑。然而,在论坛开幕前一天,李在镕却意外打破固有形象。3 月 22 日,李在镕与高通公司总裁安蒙一同现身北京小米汽车工厂。小米方面极为重视此次会面,CEO 雷军亲自接待,小米副董
    华尔街科技眼 2025-04-01 19:39 94浏览
  • 文/Leon编辑/cc孙聪颖‍步入 2025 年,国家进一步加大促消费、扩内需的政策力度,家电国补政策将持续贯穿全年。这一利好举措,为行业发展注入强劲的增长动力。(详情见:2025:消费提振要靠国补还是“看不见的手”?)但与此同时,也对家电企业在战略规划、产品打造以及市场营销等多个维度,提出了更为严苛的要求。在刚刚落幕的中国家电及消费电子博览会(AWE)上,家电行业的竞争呈现出胶着的态势,各大品牌为在激烈的市场竞争中脱颖而出,纷纷加大产品研发投入,积极推出新产品,试图提升产品附加值与市场竞争力。
    华尔街科技眼 2025-04-01 19:49 100浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 145浏览
  •        在“软件定义汽车”的时代浪潮下,车载软件的重要性日益凸显,软件在整车成本中的比重逐步攀升,已成为汽车智能化、网联化、电动化发展的核心驱动力。车载软件的质量直接关系到车辆的安全性、可靠性以及用户体验,因此,构建一套科学、严谨、高效的车载软件研发流程,确保软件质量的稳定性和可控性,已成为行业共识和迫切需求。       作为汽车电子系统领域的杰出企业,经纬恒润深刻理解车载软件研发的复杂性和挑战性,致力于为O
    经纬恒润 2025-03-31 16:48 82浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 110浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 152浏览
  • 在智能交互设备快速发展的今天,语音芯片作为人机交互的核心组件,其性能直接影响用户体验与产品竞争力。WT588F02B-8S语音芯片,凭借其静态功耗<5μA的卓越低功耗特性,成为物联网、智能家居、工业自动化等领域的理想选择,为设备赋予“听得懂、说得清”的智能化能力。一、核心优势:低功耗与高性能的完美结合超低待机功耗WT588F02B-8S在休眠模式下待机电流仅为5μA以下,显著延长了电池供电设备的续航能力。例如,在电子锁、气体检测仪等需长期待机的场景中,用户无需频繁更换电池,降低了维护成本。灵活的
    广州唯创电子 2025-04-02 08:34 66浏览
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 108浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 135浏览
  • 职场之路并非一帆风顺,从初入职场的新人成长为团队中不可或缺的骨干,背后需要经历一系列内在的蜕变。许多人误以为只需努力工作便能顺利晋升,其实核心在于思维方式的更新。走出舒适区、打破旧有框架,正是让自己与众不同的重要法宝。在这条道路上,你不只需要扎实的技能,更需要敏锐的观察力、不断自省的精神和前瞻的格局。今天,就来聊聊那改变命运的三大思维转变,让你在职场上稳步前行。工作初期,总会遇到各式各样的难题。最初,我们习惯于围绕手头任务来制定计划,专注于眼前的目标。然而,职场的竞争从来不是单打独斗,而是团队协
    优思学院 2025-04-01 17:29 103浏览
  • 升职这件事,说到底不是单纯靠“干得多”或者“喊得响”。你可能也看过不少人,能力一般,甚至没你努力,却升得飞快;而你,日复一日地拼命干活,升职这两个字却始终离你有点远。这种“不公平”的感觉,其实在很多职场人心里都曾经出现过。但你有没有想过,问题可能就藏在一些你“没当回事”的小细节里?今天,我们就来聊聊你升职总是比别人慢,可能是因为这三个被你忽略的小细节。第一:你做得多,但说得少你可能是那种“默默付出型”的员工。项目来了接着干,困难来了顶上去,别人不愿意做的事情你都做了。但问题是,这些事情你做了,却
    优思学院 2025-03-31 14:58 101浏览
  • 北京贞光科技有限公司作为紫光同芯产品的官方代理商,为客户提供车规安全芯片的硬件、软件SDK销售及专业技术服务,并且可以安排技术人员现场支持客户的选型和定制需求。在全球汽车电子市场竞争日益激烈的背景下,中国芯片厂商正通过与国际领先企业的深度合作,加速融入全球技术生态体系。近日,紫光同芯与德国HighTec达成的战略合作标志着国产高端车规芯片在国际化道路上迈出了关键一步,为中国汽车电子产业的发展注入了新的活力。全栈技术融合:打造国际化开发平台紫光同芯与HighTec共同宣布,HighTec汽车级编译
    贞光科技 2025-03-31 14:44 121浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦