DeepSeek时代,ASIC芯片加冕为王

原创 电子工程世界 2025-04-11 08:05

从2022年底ChatGPT横空出世,到2023年百模大战,再到近三个月OpenAI推出GPT4.5、xAI发布Grok3、Anthropic推出Claude3.7 Sonnet、Meta发布Llama4,大模型迭代速度一直在加速。而国内则迎来一场开源的狂飙突进,DeepSeek开源了V3和R1,阿里通义千问开源了全新推理模型QwQ-32B。在这样的发展之下,中国生成式AI用户达到3亿,超过人口的20%还多,而在去年年底这一数字是2.49亿,三个多月的时间就增长了5000多万。

对AI大模型来说,落地才是最紧迫的任务。所以,AI芯片的混战下半场,已然逐渐从训练端,卷到推理端。从器件形态来看,ASIC面对AI推理的效率一定更高。

昨日,谷歌最强AI芯片第七代TPU(张量处理单元)——Ironwood正式亮相,这款TPU芯片性能狂飙3600倍,直接叫板英伟达Blackwell B200。这或许意味着,ASIC的战争更进一步了。


ASIC:和GPU相互补



众所周知,ASIC作为一种定制芯片,其计算能力和效率都严格匹配任务算法,芯片核心数量、逻辑计算单元、控制单元比例、缓存以及芯片架构都是精确定制,因此ASIC拥有价值的性能、体积、功耗。

但与之相对的,ASIC的开发需要很长的开发周期,并且具有很大的开发风险,所以英伟达GPU凭借其强大通用算力和软件生态在AI时代取得胜利。

厂商对能效比和成本的追求是永无止境的,谷歌、亚马逊、Meta、OpenAI等大型云计算和大模型厂商均加速布局定制化ASIC,ASIC正逐步发展成为英伟达GPU之外的重要新技术路线。摩根士丹利预计,AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元,复合增长率达34%。

对AI训练来说,需要很强大的并行算力,而AI推理则对算力需求有所下降,同时算法也相对固定,加之目前很多企业的ASIC基本都完成研发。所以,现在逐渐形成英伟达GPU主导AI训练,推理阶段更多厂商转向ASIC芯片的局面。当然,其中也有一些例外情况,比如苹果选择使用谷歌TPU训练模型。

DeepSeek的出现更是推动行业关注推理上限,提升算力效率并降低成本,使竞争格局更趋多元。需要强调的是,ASIC最终不会取代GPU,而是与其分工协作。


谷歌TPU:性能再次起飞



TPU是一种专为处理张量运算而设计的ASIC芯片,由谷歌自研在2016年推出首款产品。在深度学习的世界里,张量(多维数组)是无处不在的。TPU就是为了高效处理这些张量运算而诞生的。

昨日,谷歌正式发布旗下第七代张量处理单元(TPU)Ironwood。谷歌称,在大规模部署的情况下,这款 AI 加速器的计算能力能达到全球最快超级计算机的24倍以上。

单芯片规格上,Ironwood显著提升了内存和带宽,每块芯片配备192GB高带宽内存(HBM),是去年发布的上一代TPU Trillium的六倍。每块芯片的内存带宽达到7.2 terabits/s,是 Trillium的4.5倍。

此外,Ironwood拥有超模的技术规格,当每个pod扩展至9216块芯片时,可提供42.5 exaflops的AI算力,远超目前全球最快的超级计算机El Capitan的1.7 exaflops。每块 Ironwood芯片的峰值计算能力可达4614TFLOPs。

目前,TPU芯片已经成为全球第三大数据中心芯片设计厂商,据产业链相关人士透露,谷歌TPU芯片去年的生产量已经达到280万~300万片之间。


国产TPU:耗时5年的全自研产品



国内也有一家厂商布局TPU,它就是中昊芯英。

中昊芯英由前谷歌TPU芯片核心研发者杨龚轶凡携一批来自于谷歌、微软、三星等海外科技巨头公司的AI软硬件设计专家于2018年创立。致力于以自研的TPU架构高性能AI芯片“ 刹那 ”与计算集群“ 泰则®”为核心,构建AI大模型计算所需的、国产自主可控的、能够匹配海外先进水平的AI算力基石。当前已与各地政府、运营商、企业合作建设多个超大规模智算中心。

创始人杨龚轶凡拥有斯坦福大学硕士及密歇根大学学士学位,持有54项中国专利及15项美国和欧洲专利,发表ASSCC/ISSCC/JSSCC顶级论文3篇。深耕硅谷高端芯片研发十余年,曾主导Google TPU 2/3/4芯片研发及甲骨文SPARC T8/M8等12款高性能CPU设计,累计成功流片超10次。

产品方面,中国首枚高性能TPU架构AI芯片“ 刹那 ”是中昊芯英历时近5年全自研的GPTPU架构高性能AI芯片,拥有完全自主可控的IP核、全自研指令集与计算平台。在用于AI大模型计算场景时,“ 刹那 ”的算力性能超越海外著名GPU产品近1.5倍,能耗降低30%,成功打破了国外企业在高端AI芯片领域的垄断地位。

“刹那 ”实现可重构多级存储、存算一体设计、以及流水线式的时空映射,以强大的并行处理能力实现大模型计算速度和精度的双重提升。同时采用Chiplet技术,2.5D封装实现同等制程工艺下的性能跃升。支持1024片芯片片间互联,系统集群性能远超传统GPU数十倍,集群扩容时性能可线性增长,以构建千卡、万卡规模超算集群。

基于“刹那”芯片构建的“泰则” AI计算集群系统,实现1024片AI芯片的高速片间互联,集群可实现线性扩容,单集群最大浮点运算能力达200P以上,系统级性能比传统GPU集群提升数十倍 “泰则®”大规模AI计算集群可支撑包括超千亿参数AIGC大模型运算、高级无人驾驶模型训练、蛋白质结构精密预测、AlphaGo、 AlphaZero 等在内的各类高强度Al运算场景。


LPU:Groq借势起飞



AI大模型时代,LPU异军突起,作为一种全新的ASIC种类疯狂被“吹捧”。

早在今年1月有消息传出,美国推理芯片公司Groq已经在自己的LPU芯片上实机运行 DeepSeek,效率比最新的H100快上一个量级,达到每秒24000token。

此外,Groq曾于2024年12月在沙特阿拉伯达曼构建了中东地区最大的推理集群,该集群包括了19000个Groq LPU。

那么LPU到底是什么?

LPU本质上是专门为处理自然语言(NLP)任务而设计的一种新型硬件处理器(ASIC芯片)。不过,LPU和其他ASIC不一样的地方在于存储。其采用同时采用存算一体设计,把GPU中的HBM,换成了容量更低、但速度更快的SRAM。将高带宽片上SRAM直接集成到芯片内部,有效地降低了内存的访问延迟,还显著提升了整体计算的吞吐量。说白了,就是ASIC+存算一体,所以比GPU快。

不过,虽然换成了SRAM,速度确实变快了,但是整体成本可能反而更高了。曾经有人粗略计算过,按照三年时间的运营成本来计算, Groq LPU采购成本会是英伟达H100的38 倍,运营成本达到了10倍。这么来看,其实LPU并没有媒体们渲染地那么“神话”或者“王炸”。

虽然在通用性还有性价比LPU没有GPU好,但是LPU的确实打实地提升了计算能力,拥有很好的能效比,也是可行路线之一。


NPU:时代的新宠



与TPU和LPU不同,NPU主要是用在边缘AI中。大模型为AI注入新的活力之时,边缘AI的需求也随之增加,几大处理器IP厂商,都在扩展基于边缘的AI NPU,以卸载CPU的负载从而提升效率降低功耗。一些MCU厂商已在其产品中集成NPU内核,其中比如NXP、TI、英飞凌、ST、ADI等都是采用自研的NPU IP内核。市场上也会存在一些第三方的NPU IP厂商:

Arm Ethos NPU:在2020年初正式推出Ethos-U55,目前已经推出三代产品,目前产品包括Ethos-U55、Ethos-U65。目前已有ALIF、Himax(奇景)、Nuvoton(新唐)、Infineon(英飞凌)推出了基于Cortex-M55+Ethos-U55组合的产品。

安谋科技周易NPU系列:2023年安谋发布自研“周易”X2 NPU,针对ADAS、智能座舱、平板电脑、台式机和手机等细分应用场景进行了大量性能优化,此外,安谋科技还有“周易”Z系列NPU。值得一提的是,安谋科技新一代“周易”NPU实现DeepSeek-R1端侧高效部署。

Ceva:具体产品包括Ceva-NeuPro-Nano、Ceva-NeuPro-M、Ceva-NeuPro Studio等。

Cadence:Cadence的Tensilica Neo NPU是高效能、低功耗的神经处理单元(NPU),专为嵌入式AI应用设计。

Synopsys:Synopsys ARC NPX6 NPU IP 系列是业内性能最高的神经处理单元(NPU)IP,专为满足AI应用的实时计算需求而设计,具备超低功耗。该系列包含ARC NPX6和NPX6FS,支持最新的复杂神经网络模型,包括生成式AI,并提供高达3500 TOPS的性能,适用于智能SoC设计。

芯原:官方表示其NPU IP的AI芯片在全球范围内出货量超过了1亿颗,主要应用在物联网、可穿戴、智能家居、安防监控、服务器、汽车电子、智能手机、平板电脑等市场。据悉,其NPU IP已被72家客户用在了128款AI芯片当中。最新推出的VIP9000系列NPU IP提供了可扩展和高性能的处理能力,适用于Transformer和卷积神经网络(CNN)。

晶心科技:AndesAIRE AnDLA I350 是一款深度学习加速器,专为边缘和终端推理设计,提供高性能和高效能的AI解决方案。


其他ASIC芯片:伺机待发



ASIC领域,博通和Marvell是两位主要玩家,二者在AI定制芯片中占据了约70%的市场份额。

博通在AI芯片领域的核心优势在于定制化ASIC芯片和高速数据交换芯片,其解决方案广泛应用于数据中心、云计算、HPC(高性能计算)和5G基础设施等领域。最新财报显示,博通的AI相关业务收入同比激增220%,主要受AI加速器和网络设备的旺盛需求推动。博通CEO陈福阳(Hock Tan)在财报会议上透露,到2027年,其三大客户对AI定制芯片的需求规模预计将达到600亿~900亿美元。

博通有两个大合作备受关注:第一是Meta与博通已合作开发了前两代AI训练加速处理器,目前双方正加速推进第三代MTIA芯片的研发,预计2024年下半年至2025年将取得重要进展。第二是OpenAI已委托博通开发两代ASIC芯片项目,计划于2026年投产,将采用业界领先的3nm/2nm制程工艺并搭配3D SOIC先进封装技术。与此同时,虽然苹果目前仍在使用谷歌TPU,但其自研AI芯片项目已在积极推进中。

Marvell的定制ASIC业务正成为其增长的关键引擎。2019年,Marvell以7.4亿美元收购格芯(GlobalFoundries)旗下Avera半导体,正式进军ASIC市场。如今,该业务已成功吸引亚马逊、谷歌等科技巨头的订单。

2024年12月,Marvell与AWS(Amazon Web Services)达成五年多代合作协议,涵盖AI芯片定制设计,进一步深化其在云计算市场的布局。Marvell预测,随着AI算力需求爆发,ASIC业务占比将提升至25%,并预计到2028年,数据中心ASIC市场规模将增长至429亿美元。

去年年底,AWS发布了新一代AI训练芯片Trainium3。这是首款采用3nm工艺节点制造的AWS芯片,能效提高40%、性能翻倍提升。搭载Trainium3的UltraServer性能预计将比Trn2 UltraServer高出4倍。首批基于Trainium3的实例预计将于2025年底上市。

2023年,微软也发布了专门用于云端训练和推理的AI芯片(ASIC)Microsoft Azure Maia 100。Maia 100是微软为微软云中大语言模型训练和推理而设计的首款AI芯片,采用台积电5nm工艺,晶体管数量达到1050亿个,因此,当涉及到晶体管或时钟速度时,它并不属于轻量级。同时,针对AI和生成式AI进行了优化,支持微软首次实现的低于8位数据类型(MX数据类型)。


总 结



ASIC不会完全取代GPU,但将成为推理市场主导力量,也会在训练领域有所发展。谷歌TPU、国产“刹那”、Groq LPU等创新架构,正推动AI算力向高效、低成本方向发展。未来,随着大模型继续发展,ASIC一定还会有更大的发展。

参考文献

[1]中国电子报:https://mp.weixin.qq.com/s/1Drsaz4gfkLQC3TjvaoV6w

[2]鲜枣课堂:https://mp.weixin.qq.com/s/9i5qcCGZj1ynCkTfsA01Yg

[3]机器之心:https://mp.weixin.qq.com/s/MQRWr_i76Vrw8Z5YQaIbeA

[4]腾讯研究院:https://mp.weixin.qq.com/s/-KhpFHznaLlvbkkIUlSW_A

[5]差评:https://mp.weixin.qq.com/s/I4ox6Ir5xk3MvwKbVH3grQ


· END ·


欢迎将我们设为“星标”,这样才能第一时间收到推送消息。

关注EEWorld旗下订阅号:“机器人开发圈”

回复“DS”领取《DeepSeek:从入门到精通》完整版

图片

扫码添加小助手回复“机器人”

进群和电子工程师们面对面交流经验

图片

电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论 (0)
  • 为通过金融手段积极推进全球绿色发展,国际金融论坛(IFF)于2020年创立了“IFF全球绿色金融奖”,旨在对全球绿色金融领域取得突出成绩的机构及创新性的解决方案进行表彰和奖励。该奖项依托IFF“高层次、高水平、国际化”一流智库资源优势,积极促进绿色金融领域的国际交流合作和创新实践,助力联合国可持续发展目标的实现。“IFF全球绿色金融奖”重点关注和鼓励那些促进经济增长模式转型、防治环境污染、应对气候变化,以及致力于提高能效水平、强化节能减排实效的绿色金融创新解决方案。该奖项面向全球,是对政策创新、
    华尔街科技眼 2025-04-24 20:43 38浏览
  • 引言在智能语音技术飞速发展的今天,语音交互已成为消费电子、智能家居、工业控制等领域的标配功能。传统的ISD系列录音芯片虽应用广泛,但其高成本与功能局限性逐渐难以满足市场对高性价比、高灵活性的需求。推出的WT2000P录音语音芯片,凭借其卓越性能、低功耗设计及高度可定制化特性,成为ISD系列芯片的理想替代方案,助力开发者突破产品创新瓶颈。一、WT2000P产品概述WT2000P是一款专为嵌入式语音场景设计的多功能录音芯片,采用ESOP8封装,体积小巧(尺寸仅4.9mm×3.9mm),集成度高,支持
    广州唯创电子 2025-04-25 08:44 63浏览
  •   海上训练与保障调度指挥平台系统解析   北京华盛恒辉海上训练与保障调度指挥平台系统是现代海上作战训练的核心枢纽,融合信息技术、GIS、大数据及 AI 等前沿技术,旨在实现海上训练高效组织、作战保障科学决策。以下从架构功能、应用场景、系统优势及发展挑战展开解读。   应用案例   目前,已有多个海上训练与保障调度指挥平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上训练与保障调度指挥平台。这些成功案例为海上训练与保障调度指挥平台的推广和应用提供了有力支持。   一
    华盛恒辉l58ll334744 2025-04-24 15:26 141浏览
  •   智慧军营车辆管理平台软件解析   北京华盛恒辉智慧军营车辆管理平台软件是部队实现车辆高效管理的关键工具,通过核心功能模块与前沿技术结合,为部队车辆管理带来显著价值。   应用案例   目前,已有多个智慧军营车辆管理平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润智慧军营车辆管理平台。这些成功案例为智慧军营车辆管理平台的推广和应用提供了有力支持。   一、核心功能模块   (一)车辆信息全生命周期管理   从车辆采购登记到退役报废,全程记录车辆基础信息、技术参数、使
    华盛恒辉l58ll334744 2025-04-25 20:10 27浏览
  •   无人机电磁干扰对抗演练平台系统解析   无人机电磁干扰对抗演练平台系统是提升无人机在复杂电磁环境下作战能力的关键工具,通过模拟实战场景,检验无人机系统的抗干扰性能与任务执行能力。以下从系统架构、技术实现、应用场景及发展趋势展开解读。   应用案例   目前,已有多个无人机电磁干扰对抗演练平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机电磁干扰对抗演练平台。这些成功案例为无人机电磁干扰对抗演练平台的推广和应用提供了有力支持。   一、核心系统组成与功能   (一
    华盛恒辉l58ll334744 2025-04-25 16:55 54浏览
  •   基于 GIS 的任务规划与决策系统平台解析   北京华盛恒辉基于 GIS 的任务规划与决策系统平台是空间信息技术与决策科学融合的成果,通过地理空间数据处理与分析,为复杂任务提供科学智能的规划决策支持。以下从架构、功能、技术、应用及趋势展开解读。   应用案例   目前,已有多个基于 GIS 的任务规划与决策系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润基于 GIS 的任务规划与决策系统。这些成功案例为基于 GIS 的任务规划与决策系统的推广和应用提供了有力支持
    华盛恒辉l58ll334744 2025-04-25 15:47 53浏览
  •   航空兵训练与战术对抗仿真平台系统解析   北京华盛恒辉航空兵训练与战术对抗仿真平台系统是现代军事训练的关键工具,借助计算机技术构建虚拟战场,支持多兵种协同作战模拟,为军事决策、训练及装备研发提供科学依据。   应用案例   目前,已有多个航空兵训练与战术对抗仿真平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润航空兵训练与战术对抗仿真平台。这些成功案例为航空兵训练与战术对抗仿真平台的推广和应用提供了有力支持。   一、系统架构与核心功能   系统由模拟器、计算机兵力生
    华盛恒辉l58ll334744 2025-04-24 16:34 157浏览
  • 随着轻薄笔记本的普及,再加上电竞玩家对于高画质音视频体验的需求日益高涨,如何让轻薄笔记本在兼顾轻便携带性的同时,还能提供足以支持3A(AAA/Triple-A game)大作的良好运算性能,便成为各家品牌急欲突破的共同难题。然而,对于主打轻巧便携的轻薄笔记本而言,若要内置独立显卡,势必要先突破空间受限的瓶颈,同时还需解决散热问题,确实难以兼顾两全!对此,“Thunderbolt”与“OCuLink”这两项技术应运而生。用户可以通过这两种传输接口,再搭配外接显卡盒(eGPU)及高性能显卡(如NVI
    百佳泰测试实验室 2025-04-24 17:56 52浏览
  • 引言:语音交互的智能化跃迁在全球化与智能化深度融合的今天,语音交互设备的应用场景已从单一提示功能向多语言支持、情感化表达及AI深度交互演进。传统离线语音方案受限于语种单一、存储容量不足等问题,而纯在线方案又依赖网络稳定性,难以满足复杂场景需求。WT3000A离在线TTS方案,通过“本地+云端”双引擎驱动,集成16国语种、7种方言切换、AI大模型对话扩展等创新功能,重新定义语音提示器的边界,为智能硬件开发者提供更灵活、更具竞争力的语音交互解决方案。一、方案核心亮点离在线双模融合,场景全覆盖离线模式
    广州唯创电子 2025-04-25 09:14 72浏览
  •   智慧军营车辆管理系统解析   北京华盛恒辉智慧军营车辆管理系统是推动军队车辆管理智能化、精细化的重要工具,通过多系统协同与前沿技术应用,实现车辆全生命周期管理。以下从系统构成、核心功能、技术支撑、应用价值及发展方向进行全面解读。   应用案例   目前,已有多个智慧军营车辆管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润智慧军营车辆管理系统。这些成功案例为智慧军营车辆管理系统的推广和应用提供了有力支持。   一、系统构成   系统由五大子系统组成,构建起全流程智
    华盛恒辉l58ll334744 2025-04-25 19:55 30浏览
  • 最近,途虎养车发布的2024年财报数据,可谓相当吸睛。全年营收达到147.59亿元,同比增长8.5%,这个数字直观地展现了途虎在市场上的强大吸金能力,在行业里稳稳占据前列。利润方面同样出色,毛利37.46亿元,毛利率提升0.7个百分点至25.4%;经调整净利润6.24亿元,同比增长 29.7%,经营利润同比更是增长104%至3.31亿元,盈利能力显著增强,这样的利润增长幅度,在同行业中十分亮眼。在用户规模上,途虎养车同样成绩斐然。累计注册用户近1.4亿,同比增长20.4%,交易用户数达2410万
    用户1742991715177 2025-04-24 19:12 65浏览
  • 2025-4-25全球信息报告出版商Global Info Research(环洋市场咨询)发布了【2025年全球市场高介电常数材料总体规模、主要生产商、主要地区、产品和应用细分研究报告】,报告主要调研全球高介电常数材料总体规模、主要地区规模、主要生产商规模和份额、产品分类规模、下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2020至2024年,预测数据为2025
    用户1745398400862 2025-04-25 08:48 86浏览
  •   通用装备论证与评估系统平台解析   北京华盛恒辉通用装备论证与评估系统平台是服务军事装备全生命周期管理的综合性信息化平台,通过科学化、系统化手段,实现装备需求论证、效能分析等核心功能,提升装备建设效益。   应用案例   目前,已有多个通用装备论证与评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润通用装备论证与评估系统。这些成功案例为通用装备论证与评估系统的推广和应用提供了有力支持。   一、系统分层架构   (一)数据层   整合装备性能、作战、试验等多源异
    华盛恒辉l58ll334744 2025-04-24 16:14 153浏览
  • ESD(Electrostatic Discharge,静电放电)二极管是一种专门用于保护电子设备免受静电放电或瞬态电压冲击的半导体器件。以下是其特点、优势和应用场景的详细说明:一、ESD二极管的特点快速响应响应时间极短(通常小于 1纳秒),能迅速将ESD能量旁路到地,避免电路受损。低钳位电压在ESD事件中,钳位电压远低于被保护器件的耐受阈值(例如 <30V),确保敏感元件不被击穿。低电容典型电容值低至 0.5pF~5pF,适合高频信号线路(如USB 3.0、
    时源芯微 2025-04-25 16:17 58浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦