算力新星LPU带火SRAM业内人士如何看存算芯片未来?

原创 科创板日报 2024-02-27 17:02

Groq公司LPU的存储方案选用了SRAM,让SRAM高存取速度、高可靠性等优势在聚光灯下被放大,不过对科技圈来讲这并不是新鲜事物。


作者 | 郭辉

日前Groq公司的LPU芯片产品横空出世,其在特定场景下的推理速度较英伟达GPU提高10倍,成本却只有其1/10,激起资本市场对相关技术的关注。
LPU最大的产品设计特点是,存储方案摒弃了此前资本市场关注并大热的HBM,而是选用了SRAM,也让SRAM高存取速度、高可靠性等方面的优势在聚光灯下被放大。
SRAM的全称为静态随机存取存储器 (Static Random-Access Memory, SRAM) ,是随机存取存储器的一种。作为一种较为成熟的存储技术,SRAM早于上一世纪便作为独立存储芯片存在,后逐步以IP核形式集成于SoC芯片中,近年则由于存算一体方案兴起,SRAM作为存储介质的一项选择被越来越多关注。因此对科技圈——尤其是在学术领域来说,SRAM技术应用及其沿承,并不是新鲜事物。
此次Groq公司爆火,基于SRAM的算力芯片究竟能否满足市场的需求和想象?LPU的本质是什么?Groq公司LPU产品所面向的场景和用户群,能支撑起一种新的商业模式吗?对于这些问题,《科创板日报》记者对话了亿铸科技资深器件专家Ray,尝试从技术本身出发,探讨商业可能性和市场机会。
亿铸科技是国内一家新兴的存算一体芯片企业,该公司成立于2020年,创始人熊大鹏为美国德州大学奥斯汀分校博士、前知名AI芯片公司Wave Computing中国区总经理。
在公司创办之初,亿铸科技核心成员曾探讨过多种不同的存储介质,就包括SRAM在内。但确定要做大算力推理芯片之后,他们综合评估后最终选择了ReRAM。ReRAM(阻变存储器)近几年被学界及产业界认为是当下最具前景的新型非易失性存储介质之一。
亿铸科技资深器件专家Ray告诉《科创板日报》记者,存储介质的选择很大程度需要考虑具体应用场景。但在商业环境下,只考虑性能不考虑成本也是不现实的。SRAM高带宽的特性,以及读写速度、耐久度方面的优势明显,可以依靠先进制程提升性能并满足特定需求,但在大算力、低功耗、高精度的AI推理计算场景,ReRAM等新型存储介质或许才是更优解。

存算芯片产业实例:SRAM存储介质为何落选?

《科创板日报》:近几年业内对SRAM这一传统存储介质前沿的讨论集中在存算一体芯片领域,从技术角度来讲,基于SRAM做存算一体芯片的优劣势分别是什么?
▍亿铸科技Ray:在学术领域,SRAM凭借其高成熟度和高存取速度成为存算一体领域里的热门研究对象;在市场应用方面,SRAM作为传统存储介质适合IP化,SRAM存算一体在中小算力、端侧、对待机功耗无要求的场景,例如:可穿戴设备、边缘计算、无人车等市场具有一定的应用价值。
但SRAM也因其单元面积大、静态功耗高、易失性、对PVT变化敏感、存储密度低、密度提升潜能较低、成本高等特点,在应用于一些大算力、大容量、高密度集成的大型神经网络计算场景时会受到较多限制。
《科创板日报》:亿铸在选择主要的技术路线时,没有选择SRAM方案,而是选择基于RRAM做存算一体AI算力芯片,是怎么考虑的?
▍亿铸科技Ray:在成立之初我们探讨过很多种不同的存储器件来实现存算一体,不同存储介质的选择和应用场景息息相关,我们首先确定要做的是AI大算力推理芯片,于是就要从算力潜能、精度、计算效率等角度对不同器件进行评估,结果显示RRAM是最合适做AI大算力推理方向的存算一体芯片。
没有选择SRAM是因为其应用于大型神经网络计算面临着两大挑战:
首先是漏电流。
当SRAM应用于存算一体架构,由于SRAM即使待机也会产生静态漏电功耗,因此,大量的SRAM封装在一起,实现巨量的并行计算(读取操作)要解决巨大的电流电压波动问题和功耗问题。所以对企业来说,实现SRAM大容量和高并行度读取(高算力)的设计和工程落地有着较高的工艺和设计门槛,会导致设计和工程成本极高,也成为基于SRAM的存算一体技术商用路上较难跨越的阻碍。
在未来的车载和数据中心的应用场景中,SRAM的高功耗,和器件特性对温度比较敏感等特性,还可能导致用电量高和运行不稳定。
其次是密度。
SRAM基本单元是由6个Transistor组成的锁存结构,密度相对来说较低。存储单元在做存算的时候,需要更多Transistor进行控制,比如使用8T、10T或更多Transistor的架构,导致了面积大、单位密度受限。
同时,SRAM算力的提升主要靠工艺制程的升级,器件本身在密度上难以实现大规模突破。
相比之下,ReRAM的微缩性有着天然的优势,不主要靠CMOS制造工艺的升级就可以实现每代密度翻倍。
在未来,大型神经网络参数动辄几个GB,大模型如GPT3.5参数就达到了175B,SRAM难以容纳如此大的参数,所以很难跟上AI模型规模的发展节奏。相比之下,基于ReRAM的存算一体芯片可以轻易做到高密度,而亿铸科技的方案还能够实现多芯片互联,从芯片系统角度进一步提升密度和算力。
另外,基于ReRAM的全数字化存算一体技术,无需ADC/DAC模数和数模信号转换器,不会受到信噪比的影响,精度可以达到32bit甚至更高,既不会产生精度损失,也不会面临模拟计算带来的诸如IR-DROP等问题,非常适合实现大算力、高精度、高能效比的存算一体AI芯片。

评价存储介质的好坏离不开应用场景

《科创板日报》:SRAM有没有可能因为类似LPU的产品而迎来爆发?产业界怎么看SRAM进一步发展的前景?
▍亿铸科技Ray:评价存储介质的好坏离不开应用场景,根据应用场景需要的不同,需要找到合适的器件去支撑,没有一种器件是可以满足所有场景的需要的,而应用需要的不同,也给了不同的存储器件出现、发展、持续演进的机会。
同样的存储介质,应用在存储和存算两个方向上,所带来的评价是不同的。目前的LPU产品,比如Groq的LPU,其利用SRAM高带宽的特性,通过集成230MB的SRAM来替代DRAM,但其中的SRAM本质上还是发挥存储功能。
在“存储”这个领域上,SRAM的优势主要在于读写速度和耐久度,但其仍然存在密度低,成本高等问题。而“存算”器件要求更大的算力潜能、更高的算力精度、更快的算力效率,面对大模型带动的AI加速计算大算力场景,RRAM更适合作为存储介质去实现存算一体AI大算力芯片。
《科创板日报》:从现有Groq公司释放的LPU产品信息来看,使用的是存算一体的方案吗?
▍亿铸科技Ray:Groq公司的LPU使用的是一种近存计算的方案。此前谷歌的TPU也是采用近存计算技术,把存储芯片分成小块,放在计算芯片的附近,虽然可以提升数据搬运的速度,但本质上还是冯诺依曼架构,并没有从根源上解决“存储墙”的问题。
《科创板日报》:有业内分析称,Groq之所以选择SRAM,在于LPU只需负责推理,而不处理训练。对此您的理解是什么?
▍亿铸科技Ray:Groq选择SRAM的原因有很多种可能,首先是SRAM读写速度要显著快于英伟达采用的DRAM。
在推理阶段,用户是实时交互的,数据也是实时的,采用高速存储介质更为合适。英伟达GPGPU目前主要是应用于训练,训练必然有大量数据,且对实时要求没那么高。那用成本更低的DRAM也是合适的。从这一角度来讲,选择SRAM做AI推理计算比选择DRAM延时更低,计算效率更高。
但这不意味着SRAM就是大算力AI推理计算的最优解。因为即使针对推理应用,面对很多大模型,SRAM较低的容量也可能使得LPU捉襟见肘。
在大算力、低功耗、高精度的AI推理计算场景中,对比来看,有比SRAM更优的存储介质选择,比如ReRAM的好处就在于,功耗低、面积小、读写速度快,且密度极大,可以做到SRAM密度的几十上百倍,并且不依赖CMOS工艺的升级就可以实现每代密度和容量翻倍。

“Groq的成功国内可能很难复制”

《科创板日报》:此次Groq公司LPU产品爆火,对半导体产业有何启示?暂时抛开性价比谈算力,靠产品高投入、高定价去满足特定需求,这种思路有没有可能成为一种新的商业模式?
▍亿铸科技Ray:在商业环境下,只考虑性能不考虑成本是不现实的。
在面对未来的智能经济这一议题,不少业内人士纷纷提出了“急需降低算力成本”这一诉求,这也是当前发展AI产业最强烈和刚性的需求。
在未来,如果要让AI等同于水、电……成为所有人的生产生活不可或缺的重要生产要素,它的算力成本就需要降低到能支持产业进一步升级并具备能被广泛使用的普适性。如果说大模型的任务是让AI“够聪明”的话,那么算力的任务就是让AI“够便宜”,两者应共同发展直到AI作为一个全新的生产要素在更大范围内参与生产和生活,真正惠及千行百业。
另外,满足特定需求的AI计算芯片可以统称为ASIC芯片,这一赛道上谷歌已经研究多年,其最大的缺陷在于通用性。正如一些专家分析的,从技术和性能上来看,Groq目前还不能撼动英伟达的地位。因为英伟达的GPU产品是通用的,而Groq的产品形态是ASIC,它不是通用产品,而是一个定制产品。
简单点来说,任何一个人工智能算法都可以使用英伟达的H200,但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的产品,还需要先确定需求和指定规格,再进行功能验证,最后生产出来的产品才能使用。
这就带来了实际使用中的价格问题。Lepton AI的贾扬清做了一个详细的计算,发现如果运行三年的话,Groq的硬件采购成本是 1144 万美元,运营成本是76.2万美元或更高。8卡H100的硬件采购成本是30万美元,运营成本是7.2万美元或略低。
而对于国内的AI计算芯片来说,还需要克服先进制程依赖的问题,这也使得我们很难复制Groq的成功。
《科创板日报》:SRAM本身是比较成熟的技术,那么现阶段对SRAM技术和方案的讨论,在您看来在哪些领域或解决什么样的问题才是真正有价值的?
▍亿铸科技Ray:基于大容量SRAM的LPU芯片的爆火体现了对于算力越来越大的需求,因为其相比于GPU,推理速度大幅提升。而在今后的发展过程中,前面提到的算力成本的降低将成为非常重要的问题,并且在保持高算力的情况下,提升能效比也应当是亟须进一步解决的问题。这也为基于ReRAM等其他新型高密度非易失性存储器,通过存内计算的方式进行高算力、低功耗的计算,提供了很好的机会。



推荐阅读







科创板日报 国内首个专注科创板、创投及TMT等领域的新锐媒体,致力于打造领先、专业、权威的科创信息服务平台。
评论
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 80浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 68浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 170浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 55浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 141浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 85浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 116浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 75浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 170浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 104浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 125浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 44浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦