算力平权时代，静待LPU的王炸时刻-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

目前，LPU芯片正凭借其创新的技术架构和出色的性能表现，在AI推理芯片市场中占据一席之地，而且很有可能为中国芯片厂商打开另一片新天地。

与我们熟知的GPU被广泛应用于人工智能领域的模型训练和推理不同，语言处理单元(Language Processing Unit, LPU)是专门针对语言处理任务进行优化的，旨在更高效地处理文本数据，执行诸如自然语言理解、文本生成等任务。

美国Groq公司是LPU的重要推动者，其开发的LPU推理芯片凭借出色的性能正逐渐崭露头角。作为一家2016年由前谷歌工程师Jonathan Ross创立的智能芯片企业，Groq在短短几年内就取得了显著的发展成果。2024年8月，该公司完成了6.4亿美元D轮融资，估值飙升至28亿美元，足以证明其在行业内的潜力与价值。

LPU的前世今生

LPU芯片在技术架构上具有诸多创新之处。它采用张量流处理(TSP)架构，这是一种功能切片的微架构，芯片上存在众多计算模式被软件预先定义好的功能片，如同工厂流水线一般处理数据流。简单而言，当数据经过切片时，每个功能单元能够有选择性地截取所需数据，获取计算结果并将其传递回数据流，这种独特的架构极大地提升了数据处理效率。

目前，Groq推出了一系列LPU芯片产品。例如GroqCard™将单个GroqChip™处理器封装到标准PCIe Gen4 x16外形中，提供服务器集成，拥有多达11个RealScale™芯片到芯片连接，以及内部软件定义网络，无需外部交换机即可实现近乎线性的多服务器和多机架可扩展性，售价为19,948美元。

GroqNode™则是适用于大规模部署的服务器系统。一套8个GroqCard™加速器集成在4U服务器机箱中，还集成了芯片到芯片连接、双服务器级CPU和高达1TB的DRAM，旨在实现大型深度学习模型的高性能和低延迟部署。

而GroqRack™可扩展的数据中心加速器网络，结合了8个GroqNode™套件的强大功能，具有多达64个互连芯片和1个额外的冗余节点，可减少意外停机的影响，单个机架的端到端延迟仅为1.6μs，适合大型工作负载，并可扩展到整个数据中心。

制程方面，LPU没有盲目追求最先进的制程工艺，而是选择了14nm制程和自研的TSP架构，但依然实现了强大的并行处理能力，能够同时处理数百万个数据流。在存储性能上，LPU摒弃了传统算力芯片对HBM的依赖，转而使用易失性存储器SRAM。SRAM通常用于CPU的高速缓存，不需要刷新电路来保持数据，这使得LPU能够提供高带宽和低延迟，同时也省去了对台积电CoWoS封装技术的需求。

在算力性能表现上，LPU芯片可以运行现有的GenAI模型，例如运行GPT-4时速度会提升10倍，利用Meta Llama 2创造了每用户每秒300个令牌(Token)的记录，甚至曾达成500 token/s的推理速度，比ChatGPT快数倍。同时，在大模型推理场景中，Groq声称LPU芯片的速度比英伟达GPU 快10倍，耗电量仅为后者的1/10，在能耗方面无疑是具有极大优势的。

LPU主要面向云端大模型推理，适用于生成式和对话式AI应用。2024年9月，Groq 同沙特阿美数字与技术子公司Aramco Digital签订谅解备忘录，将一同在沙特阿拉伯建设全球最大规模的推理数据中心，并计划在2025年第一季度末部署超过10.8万个 LPU，这无疑是LPU在应用推广方面的重大突破。

当然，LPU芯片也面临着一些阻碍。SRAM内存价格本来就不便宜，而且内存仅有230MB，运行大型语言模型成本较高，例如运行LLaMA2-70b这样的大语言模型可能需要572张LPU，总购卡成本高达1144 万美元(按单卡标价2万美元计算)。如果再加上电费，三年运行成本高达1220.2万美元。但相比之下，8张英伟达H100系统在性能上与Groq系统相当，但硬件成本仅为37.2万美元。

此外，随着AI技术的不断发展，OpenAI在2024年2月初发布AI视频生成平台Sora，生成式人工智能走向新的阶段，LPU虽然能实现对Token这一单元的快速处理，但是面对Sora的最小计算单元Patch，其处理效果还未可知。也有观点认为，LPU仅针对特定算法、特定数据结构来设计芯片，在未来频繁改变的AI发展节奏中可能难以持续保持优势。

如果与DeepSeek联手

作为性能卓越且成本优势明显的AI大模型，DeepSeek已经成为全球范围内“现象级”产品。那么，具备同样属性的LPU芯片能否与DeepSeek携手，再一次搅动人工智能领域的一池春水？

理论上而言，确实是存在这种可能性的，尤其是在以下四方面：

(1). 大幅提升计算效率

LPU采用TSP架构，配合易失性存储器SRAM，提供了高带宽和低延迟，在数据处理速度和计算能力上表现出色，能快速处理文本数据。DeepSeek在数学、代码、自然语言推理等任务上性能强劲，比肩OpenAI-o1正式版。

当LPU与DeepSeek相结合，LPU的硬件加速能力可以充分发挥DeepSeek模型的潜力。在自然语言处理任务中，如文本生成、智能客服等场景，LPU能够快速处理 DeepSeek模型运行过程中的大量数据调用和计算需求，减少模型推理时间，使得生成文本的速度大幅提升，用户与智能客服交互时响应更加迅速，极大地提高用户体验。

据报道，Groq公司已经在自己的LPU芯片上实机运行了DeepSeek，效率比最新的H100快一个量级，达到了每秒24000 token。

(2). 降低应用成本

DeepSeek模型的训练成本相对较低，而LPU在运行大模型时，虽然单卡采购成本较高，但从长远和整体能耗角度看，其能效比优势显著。企业在搭建基于DeepSeek模型的AI服务时，使用LPU作为算力支持，能在保证服务性能的同时，减少在硬件和电费上的开支，这对于需要大规模部署人工智能应用的企业，如互联网公司、金融机构等，具有极大的吸引力，有助于推动人工智能技术在更多领域的普及应用。

(3). 拓展应用场景

DeepSeek-R1具备高性能、低成本、开源三大属性，其开源属性为企业提供了技术底座，可被广泛应用于教育、人力资源等多领域进行定制化开发。LPU强大的推理能力可以支持DeepSeek模型在更复杂的场景中运行。比如在智能驾驶领域，结合实时路况数据进行自然语言交互和决策推理；在医疗领域，辅助医生进行病历分析和诊断建议时，快速处理大量医学文献和病例数据。

(4). 促进技术创新与产业变革

LPU与DeepSeek的组合可能会引发人工智能产业链上下游的技术创新。硬件厂商可能会参考LPU的架构设计，研发更适合大模型运行的芯片；软件开发者会基于 DeepSeek模型和LPU的特性，开发出更高效的算法和应用程序。这将进一步促进整个AI产业的发展，推动行业从“闭源垄断”向“开源协作”转型，加速人工智能技术的迭代升级，使人工智能技术更好地服务于社会和经济发展。

什么类型的芯片适合作为LPU？

FPGA芯片可能会是备选项之一。以来自中国的“无穹LPU”为例，这是无问芯穹公司研发出的“全球首个基于FPGA的大模型处理器”。通过大模型高效压缩的软硬件协同优化技术，使LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块，并且性价比与能效比均高于同等工艺GPU，即展示“一张卡跑大模型”。

无问芯穹研发的端侧大模型推理处理器LPU采用异构计算技术。其核心目标是提供如水电煤般便捷的算力服务，解决当前市场中算力资源匮乏的问题。目前已通过适配多种 AI芯片，实现不同模型高效并行处理，根据无问芯穹的内部测试数据，这款芯片在大规模模型推理场景中，算力成本下降高达90%，为国内算力之困开辟了一条前路。

存算一体芯片可能会是备选项之二，因为从最朴素的逻辑来讲，存算一体应该是为阵列式运算进行加速最有力的武器。目前来看，AI计算中最底层，且占绝大部分运算量的基础算子(张量、矩阵、向量)运算，是非常适合于在内存中完成的。而且，在端侧推理运算中，显著特征之一就是权重的部分参数在整个运算中保持不变，也特别适合把数据留在内存中参与运算。最后，由于绝大多数的计算机在芯片内部的能量损耗，主要是来自数据/内存间的搬运读写，如果能够节省这部分的功耗，对计算效率的提升可想而知。

专用AI推理芯片可能会是备选项之三。例如寒武纪思元系列这样的专用AI推理芯片，对卷积神经网络、循环神经网络等常见的深度学习模型结构有很好的优化。在运行 DeepSeek模型时，能够高效地执行模型推理，减少计算资源的浪费。同时，这类芯片在功耗控制上表现出色，适用于对能耗要求较高的场景，如数据中心的大规模部署，与 LPU结合可以进一步提升推理效率和降低能耗成本。

也有人说DPU芯片。但有相关人士评论说，DPU擅长的是数据预处理和分流，对于矩阵运算、神经网络层的计算效率远不如专门为深度学习设计的芯片，无法快速完成模型推理过程中的复杂计算任务。而且DPU的生态主要围绕数据中心网络和存储管理构建，与深度学习框架和工具的兼容性较差，可能并不适合被用于运行DeepSeek模型。

据Gartner预测，2026年LPU单芯片算力密度将突破50TOPS/W，较当前提升4倍。未来，随着技术的不断演进，光子计算LPU和量子LPU芯片在特定NLP任务中都有望展现指数级加速潜力。

结语

总体而言，尽管摒弃旧的硬件架构去另辟新境的确是一条捷径，但如何让现有用户手中的X86、Arm架构旧设备能顺利适配新的LPU，可能并不会很轻松。但不管怎样，目前LPU芯片正凭借其创新的技术架构和出色的性能表现，在AI推理芯片市场中占据了一席之地，而且很有可能为中国芯片厂商打开另一片新天地。今后，随着技术的不断发展和优化，LPU能否克服现有阻碍，在竞争激烈的AI芯片领域取得更大的突破，值得我们拭目以待。

责编：Lefeng.shao

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

人工智能

算力平权时代，静待LPU的王炸时刻

LPU的前世今生

如果与DeepSeek联手

什么类型的芯片适合作为LPU？

结语

杂志声明