目前,LPU芯片正凭借其创新的技术架构和出色的性能表现,在AI推理芯片市场中占据一席之地,而且很有可能为中国芯片厂商打开另一片新天地。

与我们熟知的GPU被广泛应用于人工智能领域的模型训练和推理不同,语言处理单元(Language Processing Unit, LPU)是专门针对语言处理任务进行优化的,旨在更高效地处理文本数据,执行诸如自然语言理解、文本生成等任务。 

美国Groq公司是LPU的重要推动者,其开发的LPU推理芯片凭借出色的性能正逐渐崭露头角。作为一家2016年由前谷歌工程师Jonathan Ross创立的智能芯片企业,Groq在短短几年内就取得了显著的发展成果。2024年8月,该公司完成了6.4亿美元D轮融资,估值飙升至28亿美元,足以证明其在行业内的潜力与价值。

LPU的前世今生  

LPU芯片在技术架构上具有诸多创新之处。它采用张量流处理(TSP)架构,这是一种功能切片的微架构,芯片上存在众多计算模式被软件预先定义好的功能片,如同工厂流水线一般处理数据流。简单而言,当数据经过切片时,每个功能单元能够有选择性地截取所需数据,获取计算结果并将其传递回数据流,这种独特的架构极大地提升了数据处理效率。

目前,Groq推出了一系列LPU芯片产品。例如GroqCard™将单个GroqChip™处理器封装到标准PCIe Gen4 x16外形中,提供服务器集成,拥有多达11个RealScale™芯片到芯片连接,以及内部软件定义网络,无需外部交换机即可实现近乎线性的多服务器和多机架可扩展性,售价为19,948美元。

GroqNode™则是适用于大规模部署的服务器系统。一套8个GroqCard™加速器集成在4U服务器机箱中,还集成了芯片到芯片连接、双服务器级CPU和高达1TB的DRAM,旨在实现大型深度学习模型的高性能和低延迟部署。

而GroqRack™可扩展的数据中心加速器网络,结合了8个GroqNode™套件的强大功能,具有多达64个互连芯片和1个额外的冗余节点,可减少意外停机的影响,单个机架的端到端延迟仅为1.6μs,适合大型工作负载,并可扩展到整个数据中心。

制程方面,LPU没有盲目追求最先进的制程工艺,而是选择了14nm制程和自研的TSP架构,但依然实现了强大的并行处理能力,能够同时处理数百万个数据流。在存储性能上,LPU摒弃了传统算力芯片对HBM的依赖,转而使用易失性存储器SRAM。SRAM通常用于CPU的高速缓存,不需要刷新电路来保持数据,这使得LPU能够提供高带宽和低延迟,同时也省去了对台积电CoWoS封装技术的需求。

在算力性能表现上,LPU芯片可以运行现有的GenAI模型,例如运行GPT-4时速度会提升10倍,利用Meta Llama 2创造了每用户每秒300个令牌(Token)的记录,甚至曾达成500 token/s的推理速度,比ChatGPT快数倍。同时,在大模型推理场景中,Groq声称LPU芯片的速度比英伟达GPU 快10倍,耗电量仅为后者的1/10,在能耗方面无疑是具有极大优势的。

LPU主要面向云端大模型推理,适用于生成式和对话式AI应用。2024年9月,Groq 同沙特阿美数字与技术子公司Aramco Digital签订谅解备忘录,将一同在沙特阿拉伯建设全球最大规模的推理数据中心,并计划在2025年第一季度末部署超过10.8万个 LPU,这无疑是LPU在应用推广方面的重大突破。

当然,LPU芯片也面临着一些阻碍。SRAM内存价格本来就不便宜,而且内存仅有230MB,运行大型语言模型成本较高,例如运行LLaMA2-70b这样的大语言模型可能需要572张LPU,总购卡成本高达1144 万美元(按单卡标价2万美元计算)。如果再加上电费,三年运行成本高达1220.2万美元。但相比之下,8张英伟达H100系统在性能上与Groq系统相当,但硬件成本仅为37.2万美元。

此外,随着AI技术的不断发展,OpenAI在2024年2月初发布AI视频生成平台Sora,生成式人工智能走向新的阶段,LPU虽然能实现对Token这一单元的快速处理,但是面对Sora的最小计算单元Patch,其处理效果还未可知。也有观点认为,LPU仅针对特定算法、特定数据结构来设计芯片,在未来频繁改变的AI发展节奏中可能难以持续保持优势。

如果DeepSeek联手

作为性能卓越且成本优势明显的AI大模型,DeepSeek已经成为全球范围内“现象级”产品。那么,具备同样属性的LPU芯片能否与DeepSeek携手,再一次搅动人工智能领域的一池春水?

理论上而言,确实是存在这种可能性的,尤其是在以下四方面:

(1). 大幅提升计算效率

LPU采用TSP架构,配合易失性存储器SRAM,提供了高带宽和低延迟,在数据处理速度和计算能力上表现出色,能快速处理文本数据。DeepSeek在数学、代码、自然语言推理等任务上性能强劲,比肩OpenAI-o1正式版。

当LPU与DeepSeek相结合,LPU的硬件加速能力可以充分发挥DeepSeek模型的潜力。在自然语言处理任务中,如文本生成、智能客服等场景,LPU能够快速处理 DeepSeek模型运行过程中的大量数据调用和计算需求,减少模型推理时间,使得生成文本的速度大幅提升,用户与智能客服交互时响应更加迅速,极大地提高用户体验。

据报道,Groq公司已经在自己的LPU芯片上实机运行了DeepSeek,效率比最新的H100快一个量级,达到了每秒24000 token。

(2). 降低应用成本

DeepSeek模型的训练成本相对较低,而LPU在运行大模型时,虽然单卡采购成本较高,但从长远和整体能耗角度看,其能效比优势显著。企业在搭建基于DeepSeek模型的AI服务时,使用LPU作为算力支持,能在保证服务性能的同时,减少在硬件和电费上的开支,这对于需要大规模部署人工智能应用的企业,如互联网公司、金融机构等,具有极大的吸引力,有助于推动人工智能技术在更多领域的普及应用。

(3). 拓展应用场景

DeepSeek-R1具备高性能、低成本、开源三大属性,其开源属性为企业提供了技术底座,可被广泛应用于教育、人力资源等多领域进行定制化开发。LPU强大的推理能力可以支持DeepSeek模型在更复杂的场景中运行。比如在智能驾驶领域,结合实时路况数据进行自然语言交互和决策推理;在医疗领域,辅助医生进行病历分析和诊断建议时,快速处理大量医学文献和病例数据。

(4). 促进技术创新与产业变革

LPU与DeepSeek的组合可能会引发人工智能产业链上下游的技术创新。硬件厂商可能会参考LPU的架构设计,研发更适合大模型运行的芯片;软件开发者会基于 DeepSeek模型和LPU的特性,开发出更高效的算法和应用程序。这将进一步促进整个AI产业的发展,推动行业从“闭源垄断”向“开源协作”转型,加速人工智能技术的迭代升级,使人工智能技术更好地服务于社会和经济发展。

什么类型的芯片适合作为LPU

FPGA芯片可能会是备选项之一。以来自中国的“无穹LPU”为例,这是无问芯穹公司研发出的“全球首个基于FPGA的大模型处理器”。通过大模型高效压缩的软硬件协同优化技术,使LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块,并且性价比与能效比均高于同等工艺GPU,即展示“一张卡跑大模型”。

无问芯穹研发的端侧大模型推理处理器LPU采用异构计算技术。其核心目标是提供如水电煤般便捷的算力服务,解决当前市场中算力资源匮乏的问题。目前已通过适配多种 AI芯片,实现不同模型高效并行处理,根据无问芯穹的内部测试数据,这款芯片在大规模模型推理场景中,算力成本下降高达90%,为国内算力之困开辟了一条前路。

存算一体芯片可能会是备选项之二,因为从最朴素的逻辑来讲,存算一体应该是为阵列式运算进行加速最有力的武器。目前来看,AI计算中最底层,且占绝大部分运算量的基础算子(张量、矩阵、向量)运算,是非常适合于在内存中完成的。而且,在端侧推理运算中,显著特征之一就是权重的部分参数在整个运算中保持不变,也特别适合把数据留在内存中参与运算。最后,由于绝大多数的计算机在芯片内部的能量损耗,主要是来自数据/内存间的搬运读写,如果能够节省这部分的功耗,对计算效率的提升可想而知。

专用AI推理芯片可能会是备选项之三。例如寒武纪思元系列这样的专用AI推理芯片,对卷积神经网络、循环神经网络等常见的深度学习模型结构有很好的优化。在运行 DeepSeek模型时,能够高效地执行模型推理,减少计算资源的浪费。同时,这类芯片在功耗控制上表现出色,适用于对能耗要求较高的场景,如数据中心的大规模部署,与 LPU结合可以进一步提升推理效率和降低能耗成本。

也有人说DPU芯片。但有相关人士评论说,DPU擅长的是数据预处理和分流,对于矩阵运算、神经网络层的计算效率远不如专门为深度学习设计的芯片,无法快速完成模型推理过程中的复杂计算任务。而且DPU的生态主要围绕数据中心网络和存储管理构建,与深度学习框架和工具的兼容性较差,可能并不适合被用于运行DeepSeek模型。

据Gartner预测,2026年LPU单芯片算力密度将突破50TOPS/W,较当前提升4倍。未来,随着技术的不断演进,光子计算LPU和量子LPU芯片在特定NLP任务中都有望展现指数级加速潜力。

结语

总体而言,尽管摒弃旧的硬件架构去另辟新境的确是一条捷径,但如何让现有用户手中的X86、Arm架构旧设备能顺利适配新的LPU,可能并不会很轻松。但不管怎样,目前LPU芯片正凭借其创新的技术架构和出色的性能表现,在AI推理芯片市场中占据了一席之地,而且很有可能为中国芯片厂商打开另一片新天地。今后,随着技术的不断发展和优化,LPU能否克服现有阻碍,在竞争激烈的AI芯片领域取得更大的突破,值得我们拭目以待。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
最近收到一款Jetson Orin Nano Super开发套装,我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
从品牌战略的角度来看,华为本次选择古代神话中的人物作为商标,可能是为了借助这些神话角色的知名度和文化内涵,打造具有中国特色的品牌形象……
随着全球数字化转型市场蓬勃发展,云计算、人工智能、大数据、5G等技术的应用范围不断扩大,全球企业的数字化转型已经来到了持续发展阶段,这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。
荣耀新任CEO李健首次公开亮相即宣布投入100亿美元布局AI终端生态,并推动Magic系列提供7年系统更新......
假设 GPU 租赁成本为 2 美元 / 小时,经计算,DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入,理论上一天的总收入可达……
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
小米宣布全球首发光学预研技术——小米模块光学系统,同时发布官方宣传视频。简单来说,该系统是一个磁吸式可拆卸镜头,采用定制M4/3传感器+全非球面镜组,带来完整一亿像素,等效35mm焦段,配备f/1.4
千万级中标项目5个,百万级中标项目12个。文|新战略根据公开信息,新战略移动机器人产业研究所不完全统计,2025年2月,国内发布35项中标公告,披露总金额超15527.01万元。(由新战略移动机器人全
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅又一地
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----图1 采用自上而下方法实
DeepSeek的崛起不仅是技术革新,更是一场从“机器语言”到“人类语言”的范式革命,推动了AGI时代到来。各个行业的应用场景不断拓展,为企业数字化发展带来了新机遇,同时也面临诸多挑战。不同企业在落地
数据民主化终极拷问:借助大模型问数,究竟能不能实现灵活、准确、深入的数据洞察?“华东区会员复购率是多少?”——业务提需求3天,IT排期2周,口径对齐5轮。“为什么A产品毛利异常?”——指标定义模糊,数
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
点击文末“阅读原文”链接即可报名参会!往期精选《2024年度中国移动机器人产业发展研究报告》即将发布!2024年,36家移动机器人企业融了超60亿元2024移动机器人市场:新玩家批量入场,搅局还是破局
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感
在3月4日北京市政府新闻办公室举行的发布会上,北京经济技术开发区(北京亦庄)发布消息称,将于4月13日举行北京亦庄半程马拉松赛,全球首个人形机器人半程马拉松赛将同期举行。会上表示,人形机器人将与运动员