算力新星LPU带火SRAM业内人士如何看存算芯片未来?

原创 科创板日报 2024-02-27 17:02

Groq公司LPU的存储方案选用了SRAM,让SRAM高存取速度、高可靠性等优势在聚光灯下被放大,不过对科技圈来讲这并不是新鲜事物。


作者 | 郭辉

日前Groq公司的LPU芯片产品横空出世,其在特定场景下的推理速度较英伟达GPU提高10倍,成本却只有其1/10,激起资本市场对相关技术的关注。
LPU最大的产品设计特点是,存储方案摒弃了此前资本市场关注并大热的HBM,而是选用了SRAM,也让SRAM高存取速度、高可靠性等方面的优势在聚光灯下被放大。
SRAM的全称为静态随机存取存储器 (Static Random-Access Memory, SRAM) ,是随机存取存储器的一种。作为一种较为成熟的存储技术,SRAM早于上一世纪便作为独立存储芯片存在,后逐步以IP核形式集成于SoC芯片中,近年则由于存算一体方案兴起,SRAM作为存储介质的一项选择被越来越多关注。因此对科技圈——尤其是在学术领域来说,SRAM技术应用及其沿承,并不是新鲜事物。
此次Groq公司爆火,基于SRAM的算力芯片究竟能否满足市场的需求和想象?LPU的本质是什么?Groq公司LPU产品所面向的场景和用户群,能支撑起一种新的商业模式吗?对于这些问题,《科创板日报》记者对话了亿铸科技资深器件专家Ray,尝试从技术本身出发,探讨商业可能性和市场机会。
亿铸科技是国内一家新兴的存算一体芯片企业,该公司成立于2020年,创始人熊大鹏为美国德州大学奥斯汀分校博士、前知名AI芯片公司Wave Computing中国区总经理。
在公司创办之初,亿铸科技核心成员曾探讨过多种不同的存储介质,就包括SRAM在内。但确定要做大算力推理芯片之后,他们综合评估后最终选择了ReRAM。ReRAM(阻变存储器)近几年被学界及产业界认为是当下最具前景的新型非易失性存储介质之一。
亿铸科技资深器件专家Ray告诉《科创板日报》记者,存储介质的选择很大程度需要考虑具体应用场景。但在商业环境下,只考虑性能不考虑成本也是不现实的。SRAM高带宽的特性,以及读写速度、耐久度方面的优势明显,可以依靠先进制程提升性能并满足特定需求,但在大算力、低功耗、高精度的AI推理计算场景,ReRAM等新型存储介质或许才是更优解。

存算芯片产业实例:SRAM存储介质为何落选?

《科创板日报》:近几年业内对SRAM这一传统存储介质前沿的讨论集中在存算一体芯片领域,从技术角度来讲,基于SRAM做存算一体芯片的优劣势分别是什么?
▍亿铸科技Ray:在学术领域,SRAM凭借其高成熟度和高存取速度成为存算一体领域里的热门研究对象;在市场应用方面,SRAM作为传统存储介质适合IP化,SRAM存算一体在中小算力、端侧、对待机功耗无要求的场景,例如:可穿戴设备、边缘计算、无人车等市场具有一定的应用价值。
但SRAM也因其单元面积大、静态功耗高、易失性、对PVT变化敏感、存储密度低、密度提升潜能较低、成本高等特点,在应用于一些大算力、大容量、高密度集成的大型神经网络计算场景时会受到较多限制。
《科创板日报》:亿铸在选择主要的技术路线时,没有选择SRAM方案,而是选择基于RRAM做存算一体AI算力芯片,是怎么考虑的?
▍亿铸科技Ray:在成立之初我们探讨过很多种不同的存储器件来实现存算一体,不同存储介质的选择和应用场景息息相关,我们首先确定要做的是AI大算力推理芯片,于是就要从算力潜能、精度、计算效率等角度对不同器件进行评估,结果显示RRAM是最合适做AI大算力推理方向的存算一体芯片。
没有选择SRAM是因为其应用于大型神经网络计算面临着两大挑战:
首先是漏电流。
当SRAM应用于存算一体架构,由于SRAM即使待机也会产生静态漏电功耗,因此,大量的SRAM封装在一起,实现巨量的并行计算(读取操作)要解决巨大的电流电压波动问题和功耗问题。所以对企业来说,实现SRAM大容量和高并行度读取(高算力)的设计和工程落地有着较高的工艺和设计门槛,会导致设计和工程成本极高,也成为基于SRAM的存算一体技术商用路上较难跨越的阻碍。
在未来的车载和数据中心的应用场景中,SRAM的高功耗,和器件特性对温度比较敏感等特性,还可能导致用电量高和运行不稳定。
其次是密度。
SRAM基本单元是由6个Transistor组成的锁存结构,密度相对来说较低。存储单元在做存算的时候,需要更多Transistor进行控制,比如使用8T、10T或更多Transistor的架构,导致了面积大、单位密度受限。
同时,SRAM算力的提升主要靠工艺制程的升级,器件本身在密度上难以实现大规模突破。
相比之下,ReRAM的微缩性有着天然的优势,不主要靠CMOS制造工艺的升级就可以实现每代密度翻倍。
在未来,大型神经网络参数动辄几个GB,大模型如GPT3.5参数就达到了175B,SRAM难以容纳如此大的参数,所以很难跟上AI模型规模的发展节奏。相比之下,基于ReRAM的存算一体芯片可以轻易做到高密度,而亿铸科技的方案还能够实现多芯片互联,从芯片系统角度进一步提升密度和算力。
另外,基于ReRAM的全数字化存算一体技术,无需ADC/DAC模数和数模信号转换器,不会受到信噪比的影响,精度可以达到32bit甚至更高,既不会产生精度损失,也不会面临模拟计算带来的诸如IR-DROP等问题,非常适合实现大算力、高精度、高能效比的存算一体AI芯片。

评价存储介质的好坏离不开应用场景

《科创板日报》:SRAM有没有可能因为类似LPU的产品而迎来爆发?产业界怎么看SRAM进一步发展的前景?
▍亿铸科技Ray:评价存储介质的好坏离不开应用场景,根据应用场景需要的不同,需要找到合适的器件去支撑,没有一种器件是可以满足所有场景的需要的,而应用需要的不同,也给了不同的存储器件出现、发展、持续演进的机会。
同样的存储介质,应用在存储和存算两个方向上,所带来的评价是不同的。目前的LPU产品,比如Groq的LPU,其利用SRAM高带宽的特性,通过集成230MB的SRAM来替代DRAM,但其中的SRAM本质上还是发挥存储功能。
在“存储”这个领域上,SRAM的优势主要在于读写速度和耐久度,但其仍然存在密度低,成本高等问题。而“存算”器件要求更大的算力潜能、更高的算力精度、更快的算力效率,面对大模型带动的AI加速计算大算力场景,RRAM更适合作为存储介质去实现存算一体AI大算力芯片。
《科创板日报》:从现有Groq公司释放的LPU产品信息来看,使用的是存算一体的方案吗?
▍亿铸科技Ray:Groq公司的LPU使用的是一种近存计算的方案。此前谷歌的TPU也是采用近存计算技术,把存储芯片分成小块,放在计算芯片的附近,虽然可以提升数据搬运的速度,但本质上还是冯诺依曼架构,并没有从根源上解决“存储墙”的问题。
《科创板日报》:有业内分析称,Groq之所以选择SRAM,在于LPU只需负责推理,而不处理训练。对此您的理解是什么?
▍亿铸科技Ray:Groq选择SRAM的原因有很多种可能,首先是SRAM读写速度要显著快于英伟达采用的DRAM。
在推理阶段,用户是实时交互的,数据也是实时的,采用高速存储介质更为合适。英伟达GPGPU目前主要是应用于训练,训练必然有大量数据,且对实时要求没那么高。那用成本更低的DRAM也是合适的。从这一角度来讲,选择SRAM做AI推理计算比选择DRAM延时更低,计算效率更高。
但这不意味着SRAM就是大算力AI推理计算的最优解。因为即使针对推理应用,面对很多大模型,SRAM较低的容量也可能使得LPU捉襟见肘。
在大算力、低功耗、高精度的AI推理计算场景中,对比来看,有比SRAM更优的存储介质选择,比如ReRAM的好处就在于,功耗低、面积小、读写速度快,且密度极大,可以做到SRAM密度的几十上百倍,并且不依赖CMOS工艺的升级就可以实现每代密度和容量翻倍。

“Groq的成功国内可能很难复制”

《科创板日报》:此次Groq公司LPU产品爆火,对半导体产业有何启示?暂时抛开性价比谈算力,靠产品高投入、高定价去满足特定需求,这种思路有没有可能成为一种新的商业模式?
▍亿铸科技Ray:在商业环境下,只考虑性能不考虑成本是不现实的。
在面对未来的智能经济这一议题,不少业内人士纷纷提出了“急需降低算力成本”这一诉求,这也是当前发展AI产业最强烈和刚性的需求。
在未来,如果要让AI等同于水、电……成为所有人的生产生活不可或缺的重要生产要素,它的算力成本就需要降低到能支持产业进一步升级并具备能被广泛使用的普适性。如果说大模型的任务是让AI“够聪明”的话,那么算力的任务就是让AI“够便宜”,两者应共同发展直到AI作为一个全新的生产要素在更大范围内参与生产和生活,真正惠及千行百业。
另外,满足特定需求的AI计算芯片可以统称为ASIC芯片,这一赛道上谷歌已经研究多年,其最大的缺陷在于通用性。正如一些专家分析的,从技术和性能上来看,Groq目前还不能撼动英伟达的地位。因为英伟达的GPU产品是通用的,而Groq的产品形态是ASIC,它不是通用产品,而是一个定制产品。
简单点来说,任何一个人工智能算法都可以使用英伟达的H200,但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的产品,还需要先确定需求和指定规格,再进行功能验证,最后生产出来的产品才能使用。
这就带来了实际使用中的价格问题。Lepton AI的贾扬清做了一个详细的计算,发现如果运行三年的话,Groq的硬件采购成本是 1144 万美元,运营成本是76.2万美元或更高。8卡H100的硬件采购成本是30万美元,运营成本是7.2万美元或略低。
而对于国内的AI计算芯片来说,还需要克服先进制程依赖的问题,这也使得我们很难复制Groq的成功。
《科创板日报》:SRAM本身是比较成熟的技术,那么现阶段对SRAM技术和方案的讨论,在您看来在哪些领域或解决什么样的问题才是真正有价值的?
▍亿铸科技Ray:基于大容量SRAM的LPU芯片的爆火体现了对于算力越来越大的需求,因为其相比于GPU,推理速度大幅提升。而在今后的发展过程中,前面提到的算力成本的降低将成为非常重要的问题,并且在保持高算力的情况下,提升能效比也应当是亟须进一步解决的问题。这也为基于ReRAM等其他新型高密度非易失性存储器,通过存内计算的方式进行高算力、低功耗的计算,提供了很好的机会。



推荐阅读







科创板日报 国内首个专注科创板、创投及TMT等领域的新锐媒体,致力于打造领先、专业、权威的科创信息服务平台。
评论
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 73浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 111浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 98浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 102浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 111浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 87浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 58浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 125浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦