目前,LPU芯片正凭借其创新的技术架构和出色的性能表现,在AI推理芯片市场中占据一席之地,而且很有可能为中国芯片厂商打开另一片新天地。

与我们熟知的GPU被广泛应用于人工智能领域的模型训练和推理不同,语言处理单元(Language Processing Unit, LPU)是专门针对语言处理任务进行优化的,旨在更高效地处理文本数据,执行诸如自然语言理解、文本生成等任务。 

美国Groq公司是LPU的重要推动者,其开发的LPU推理芯片凭借出色的性能正逐渐崭露头角。作为一家2016年由前谷歌工程师Jonathan Ross创立的智能芯片企业,Groq在短短几年内就取得了显著的发展成果。2024年8月,该公司完成了6.4亿美元D轮融资,估值飙升至28亿美元,足以证明其在行业内的潜力与价值。

LPU的前世今生  

LPU芯片在技术架构上具有诸多创新之处。它采用张量流处理(TSP)架构,这是一种功能切片的微架构,芯片上存在众多计算模式被软件预先定义好的功能片,如同工厂流水线一般处理数据流。简单而言,当数据经过切片时,每个功能单元能够有选择性地截取所需数据,获取计算结果并将其传递回数据流,这种独特的架构极大地提升了数据处理效率。

目前,Groq推出了一系列LPU芯片产品。例如GroqCard™将单个GroqChip™处理器封装到标准PCIe Gen4 x16外形中,提供服务器集成,拥有多达11个RealScale™芯片到芯片连接,以及内部软件定义网络,无需外部交换机即可实现近乎线性的多服务器和多机架可扩展性,售价为19,948美元。

GroqNode™则是适用于大规模部署的服务器系统。一套8个GroqCard™加速器集成在4U服务器机箱中,还集成了芯片到芯片连接、双服务器级CPU和高达1TB的DRAM,旨在实现大型深度学习模型的高性能和低延迟部署。

而GroqRack™可扩展的数据中心加速器网络,结合了8个GroqNode™套件的强大功能,具有多达64个互连芯片和1个额外的冗余节点,可减少意外停机的影响,单个机架的端到端延迟仅为1.6μs,适合大型工作负载,并可扩展到整个数据中心。

制程方面,LPU没有盲目追求最先进的制程工艺,而是选择了14nm制程和自研的TSP架构,但依然实现了强大的并行处理能力,能够同时处理数百万个数据流。在存储性能上,LPU摒弃了传统算力芯片对HBM的依赖,转而使用易失性存储器SRAM。SRAM通常用于CPU的高速缓存,不需要刷新电路来保持数据,这使得LPU能够提供高带宽和低延迟,同时也省去了对台积电CoWoS封装技术的需求。

在算力性能表现上,LPU芯片可以运行现有的GenAI模型,例如运行GPT-4时速度会提升10倍,利用Meta Llama 2创造了每用户每秒300个令牌(Token)的记录,甚至曾达成500 token/s的推理速度,比ChatGPT快数倍。同时,在大模型推理场景中,Groq声称LPU芯片的速度比英伟达GPU 快10倍,耗电量仅为后者的1/10,在能耗方面无疑是具有极大优势的。

LPU主要面向云端大模型推理,适用于生成式和对话式AI应用。2024年9月,Groq 同沙特阿美数字与技术子公司Aramco Digital签订谅解备忘录,将一同在沙特阿拉伯建设全球最大规模的推理数据中心,并计划在2025年第一季度末部署超过10.8万个 LPU,这无疑是LPU在应用推广方面的重大突破。

当然,LPU芯片也面临着一些阻碍。SRAM内存价格本来就不便宜,而且内存仅有230MB,运行大型语言模型成本较高,例如运行LLaMA2-70b这样的大语言模型可能需要572张LPU,总购卡成本高达1144 万美元(按单卡标价2万美元计算)。如果再加上电费,三年运行成本高达1220.2万美元。但相比之下,8张英伟达H100系统在性能上与Groq系统相当,但硬件成本仅为37.2万美元。

此外,随着AI技术的不断发展,OpenAI在2024年2月初发布AI视频生成平台Sora,生成式人工智能走向新的阶段,LPU虽然能实现对Token这一单元的快速处理,但是面对Sora的最小计算单元Patch,其处理效果还未可知。也有观点认为,LPU仅针对特定算法、特定数据结构来设计芯片,在未来频繁改变的AI发展节奏中可能难以持续保持优势。

如果DeepSeek联手

作为性能卓越且成本优势明显的AI大模型,DeepSeek已经成为全球范围内“现象级”产品。那么,具备同样属性的LPU芯片能否与DeepSeek携手,再一次搅动人工智能领域的一池春水?

理论上而言,确实是存在这种可能性的,尤其是在以下四方面:

(1). 大幅提升计算效率

LPU采用TSP架构,配合易失性存储器SRAM,提供了高带宽和低延迟,在数据处理速度和计算能力上表现出色,能快速处理文本数据。DeepSeek在数学、代码、自然语言推理等任务上性能强劲,比肩OpenAI-o1正式版。

当LPU与DeepSeek相结合,LPU的硬件加速能力可以充分发挥DeepSeek模型的潜力。在自然语言处理任务中,如文本生成、智能客服等场景,LPU能够快速处理 DeepSeek模型运行过程中的大量数据调用和计算需求,减少模型推理时间,使得生成文本的速度大幅提升,用户与智能客服交互时响应更加迅速,极大地提高用户体验。

据报道,Groq公司已经在自己的LPU芯片上实机运行了DeepSeek,效率比最新的H100快一个量级,达到了每秒24000 token。

(2). 降低应用成本

DeepSeek模型的训练成本相对较低,而LPU在运行大模型时,虽然单卡采购成本较高,但从长远和整体能耗角度看,其能效比优势显著。企业在搭建基于DeepSeek模型的AI服务时,使用LPU作为算力支持,能在保证服务性能的同时,减少在硬件和电费上的开支,这对于需要大规模部署人工智能应用的企业,如互联网公司、金融机构等,具有极大的吸引力,有助于推动人工智能技术在更多领域的普及应用。

(3). 拓展应用场景

DeepSeek-R1具备高性能、低成本、开源三大属性,其开源属性为企业提供了技术底座,可被广泛应用于教育、人力资源等多领域进行定制化开发。LPU强大的推理能力可以支持DeepSeek模型在更复杂的场景中运行。比如在智能驾驶领域,结合实时路况数据进行自然语言交互和决策推理;在医疗领域,辅助医生进行病历分析和诊断建议时,快速处理大量医学文献和病例数据。

(4). 促进技术创新与产业变革

LPU与DeepSeek的组合可能会引发人工智能产业链上下游的技术创新。硬件厂商可能会参考LPU的架构设计,研发更适合大模型运行的芯片;软件开发者会基于 DeepSeek模型和LPU的特性,开发出更高效的算法和应用程序。这将进一步促进整个AI产业的发展,推动行业从“闭源垄断”向“开源协作”转型,加速人工智能技术的迭代升级,使人工智能技术更好地服务于社会和经济发展。

什么类型的芯片适合作为LPU

FPGA芯片可能会是备选项之一。以来自中国的“无穹LPU”为例,这是无问芯穹公司研发出的“全球首个基于FPGA的大模型处理器”。通过大模型高效压缩的软硬件协同优化技术,使LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块,并且性价比与能效比均高于同等工艺GPU,即展示“一张卡跑大模型”。

无问芯穹研发的端侧大模型推理处理器LPU采用异构计算技术。其核心目标是提供如水电煤般便捷的算力服务,解决当前市场中算力资源匮乏的问题。目前已通过适配多种 AI芯片,实现不同模型高效并行处理,根据无问芯穹的内部测试数据,这款芯片在大规模模型推理场景中,算力成本下降高达90%,为国内算力之困开辟了一条前路。

存算一体芯片可能会是备选项之二,因为从最朴素的逻辑来讲,存算一体应该是为阵列式运算进行加速最有力的武器。目前来看,AI计算中最底层,且占绝大部分运算量的基础算子(张量、矩阵、向量)运算,是非常适合于在内存中完成的。而且,在端侧推理运算中,显著特征之一就是权重的部分参数在整个运算中保持不变,也特别适合把数据留在内存中参与运算。最后,由于绝大多数的计算机在芯片内部的能量损耗,主要是来自数据/内存间的搬运读写,如果能够节省这部分的功耗,对计算效率的提升可想而知。

专用AI推理芯片可能会是备选项之三。例如寒武纪思元系列这样的专用AI推理芯片,对卷积神经网络、循环神经网络等常见的深度学习模型结构有很好的优化。在运行 DeepSeek模型时,能够高效地执行模型推理,减少计算资源的浪费。同时,这类芯片在功耗控制上表现出色,适用于对能耗要求较高的场景,如数据中心的大规模部署,与 LPU结合可以进一步提升推理效率和降低能耗成本。

也有人说DPU芯片。但有相关人士评论说,DPU擅长的是数据预处理和分流,对于矩阵运算、神经网络层的计算效率远不如专门为深度学习设计的芯片,无法快速完成模型推理过程中的复杂计算任务。而且DPU的生态主要围绕数据中心网络和存储管理构建,与深度学习框架和工具的兼容性较差,可能并不适合被用于运行DeepSeek模型。

据Gartner预测,2026年LPU单芯片算力密度将突破50TOPS/W,较当前提升4倍。未来,随着技术的不断演进,光子计算LPU和量子LPU芯片在特定NLP任务中都有望展现指数级加速潜力。

结语

总体而言,尽管摒弃旧的硬件架构去另辟新境的确是一条捷径,但如何让现有用户手中的X86、Arm架构旧设备能顺利适配新的LPU,可能并不会很轻松。但不管怎样,目前LPU芯片正凭借其创新的技术架构和出色的性能表现,在AI推理芯片市场中占据了一席之地,而且很有可能为中国芯片厂商打开另一片新天地。今后,随着技术的不断发展和优化,LPU能否克服现有阻碍,在竞争激烈的AI芯片领域取得更大的突破,值得我们拭目以待。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
据悉,本轮资金将主要用于推动下一代先进人工智能芯片的技术研发,加速智能产品量产进程,并加大市场推广力度。
这一成果标志着量子计算与人工智能的深度融合迈出关键一步,为破解大模型 “算力焦虑” 开辟了全新路径。
此次合作被视为汽车与高科技企业融合的标杆案例,可能带动更多车企与机器人公司合作,例如在物流、售后等领域。分析师预测,未来3-5年,“具身智能+汽车”将催生千亿级市场,尤其在特种车辆(如消防、勘探)和高端乘用车领域。
随着AI发展为传感器带来更多需求,博世预计到2030年,其软件和服务相关的销售额将达到数十亿欧元。2024年,博世集成微控制器和软件的MEMS传感器交付超10亿个,预计到2027年,将有90%的传感器产品将搭载集成功能......
三星电子联席CEO韩钟熙(Han Jong-Hee)于2025年3月底突然去世,引发公司管理层紧急重组。三星在一份声明中表示:“三星电子计划通过此次高管改组,尽量减少 DX 部门的领导真空。”
Alphawave作为高速数据传输技术领域的领先企业,成为多家巨头争夺的目标。据报道,全球最大的半导体IP厂商ARM也曾希望收购Alphawave,以获取先进的串行器/解串行器(SerDes)技术......
Silicon Labs(芯科科技)和Arduino宣布建立合作伙伴关系,旨在通过Arduino Nano Matter开发板(基于芯科科技的MGM240系列多协议无线模块)的两阶段合作来简化Matter协议的设计和应用
随着数据中心耗电量急剧增加,行业更迫切地需要能够高效转换电力的功率半导体。
Keysight AI(KAI)系列端到端解决方案,旨在帮助客户通过使用真实世界的AI工作负载仿真,从而验证AI集群组件来扩展数据中心的AI处理能力。
Diodes首次推出先进的锑化铟(InSb)霍尔器件传感器系列,可检测旋转速度和测量电流,适用于笔记本电脑、手机、游戏手柄等消费产品应用,以及各种家电中的电机。
在通信的世界里,有一种神奇的“魔法”叫做SDN(Software Defined Network,软件定义网络)。它就像是一位高明的指挥家,让原本错综复杂的网络变得井然有序,高效运行。然而,对于许多人
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,4月9日,零跑汽车发布官方声明,近日,网传乌兹别克斯坦技术监管局发布警告信,称零跑C16未能通过其关于电磁兼容性的检测。针对此事,零跑汽车经
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,4月10日,据央视财经报道,面对关税风暴,德国奥迪汽车公司决定:暂停向美国经销商交付新车。美国政府于2025年4月3日起对所有进口汽车及零部
2025年4月9日至11日,以“科技引领,“圳”聚创新”为主题的第十三届中国电子信息博览会(CITE2025)在深圳会展中心盛大举办。作为国内知名的液晶显示面板高新技术企业,龙腾光电已连续十三年受邀参
01 压电陶瓷薄膜一、压电陶瓷薄膜  所购买到的压电陶瓷薄膜包括两个部分,一个是电路,另外一个是双层薄膜,带有两个管脚。配对电路是对传感器输出信号进行放大。根据管脚标志,输出三个管脚分别对应电源,地线
大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。本系列将带来FPGA的系统性学习,从最基
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,4月9日,最高人民检察院通报,安徽江淮汽车集团控股有限公司原党委委员、副总经理王志远涉嫌受贿一案,由安徽省监察委员会调查终结,移送检察机关审
在全球数据中心加速向高效化、集约化转型的背景下,高频中大功率UPS(不间断电源)市场需求持续攀升,对能效、功率密度及可靠性的要求亦日益严苛。近日,英飞凌宣布与深圳科士达科技股份有限公司深化合作,通过提
在现代科技的浪潮中,光子学与电磁学作为关键的前沿领域,正经历着多学科交叉融合带来的深刻变革。从光子晶体到二维材料,从拓扑光子学到非厄米光学,这些新兴方向不仅拓展了光学的研究边界,也为解决实际问题提供了