在计算中使用某种形式的存储器以实现“存内计算”或是“存算一体”的做法,最近成为了人们热议的焦点。由于能够突破冯·诺依曼(von Neumann)架构中令人生厌的“存储墙”和“功耗墙”,这些新的架构被视作未来30年内,推动“数据计算的文艺复兴”时代到来的关键力量。

在计算中使用某种形式的存储器以实现“存内计算”或是“存算一体”的做法,最近成为了人们热议的焦点。由于能够突破冯·诺依曼(von Neumann)架构中令人生厌的“存储墙”和“功耗墙”,这些新的架构被视作未来30年内,推动“数据计算的文艺复兴”时代到来的关键力量。

人工智能,“存内计算”的加速器

其实,“存内计算”并不是什么全新的概念,“存储墙”一词在上世纪70年代就有人提出过。苹芯科技联合创始人兼首席执行官杨越在接受《电子工程专辑》独家专访时指出,对比40年前,PC时代的发展诞生了英特尔、AMD这样的公司;20年前,移动互联网时代对并行处理海量数据的能力提出了新要求,英伟达GPU开始“大杀四方”;进入人工智能时代后,信息量呈现爆炸式增长,但考虑到时延、安全、成本等原因,把所有数据都放到云端去进行处理和传输、存储和分析又是不适合的。

于是,算力下沉的趋势开始呼唤一项新的技术,要求能够在追求更好性能、更高效率的同时实现低功耗、低延迟和低成本。而存内计算方案由于无需频繁搬用数据,能耗显著降低,简化的存算结构更易于硬件实现,更符合AI时代的要求。

苹芯科技联合创始人兼首席执行官杨越

众所周知,算法(Algorithm)、数据(Data)和计算能力(Computing)并称为新AI时代三大驱动力,但在实际应用中,我们发现尽管很多AI硬件平台都展示了自身所具备的强大算力,然而当用户在真正运行一个应用时,却常常发现由于存储带宽和存储架构的限制,很难将所有的AI运算单元填满,从而导致硬件的计算效率低下。比如GPU的整个计算单元利用率就不高,只有15%-30%,其余都需要通过软件,甚至应用层来做适配。

而在设计AI平台的时候,大量运算引擎所带来的能量消耗也是不可忽视的。测试数据显示,如果将完成16位整数加法能量消耗定义为1,那么将32比特的数据从DDR内存传输到芯片中,就将花费1万倍的能量消耗。因此,过大的访问带宽将会直接导致AI芯片功耗高居不下。

在杨越看来,AI计算中最底层,且占绝大部分运算量的基础算子(张量、矩阵、向量)运算,是非常适合于在内存中完成的。而且,在端侧推理运算中,显著特征之一就是权重的部分参数在整个运算中保持不变,也特别适合把数据留在内存中参与运算。最后,由于绝大多数的计算机在芯片内部的能量损耗,主要是来自数据/内存间的搬运读写,如果能够节省这部分的功耗,对计算效率的提升可想而知。

“从最朴素的逻辑来讲,存算一体应该是为阵列式运算进行加速最有力的武器。”他说。

不过,“存内计算”概念虽然提出很久,但始终未能实现大规模量产与普及应用。“一项技术的商业落地,不仅仅是在实验室和公司内部实现自证,更多是要在应用层面上得到产业链上下游的认可,我认为目前的生态系统还属于建设早期。”杨越分析认为,客户有自己的产品设计思考和运维周期,对于是采用低风险的成熟技术,还是风险稍大的新技术,他们有着自己的考虑,这不仅仅是一个单纯的技术问题。

其实这与GPU刚被应用于通用计算时的情形非常相似,用户也是在CUDA逐渐搭建起来之后才对GPU产生了兴趣,愿意切换生态。从某种程度上来说,“如果有一天面向存算的CUDA生态成熟起来,那就完全是另外一种局面了。”

其实,大家愿意用存算一体化技术的原因,无外乎是欣赏存算核心的高能效比与计算效率。但在实际使用过程中,面对诸如参数如何配置?输入输出什么样的时序?等问题时,用户可能并不熟悉,这就要求存算一体公司拥有自己的产品、软件和开发工具,并且生态足够好、足够完备。

杨越建议未来“存内计算”的生态壁垒可以从技术和战略两个层面加以突破。例如在技术层面,要对“用户的编程接口”和“统一指令集”给出清晰定义,这样既决定了软件内容,也便于用户直接调用基于存算的运算库,而不必了解底层硬件实现形式;战略层面,除了国家政策导向外,还要强化与高校和国际同行的合作,更有助于该技术的推广与应用。

小步快跑

作为一家成立于2021年的存内计算“新势力”,苹芯科技的定位是一家专注于AI芯片存内计算技术研究与应用的公司,已经流片发布的两款产品中,一款用于端侧智能语音检测,另一款则偏重图像视频处理。考虑到存算一体技术相对来说还比较新,需要不断地打磨和迭代,苹芯科技在前期采用了“小步快跑”的策略,力争尽快完成多次流片验证。下一步,除了更多关注算力升级,覆盖更多大算力模型和不同类型的数据格式外,加速产业化和商业化落地,会是苹芯科技更加关注的方向。

之所以选择AI芯片这一赛道,杨越总结了两方面的原因:一是从时间节点上看, AI开始真正的在许多行业里落地; 二是, 新型存储器底层技术的加速成熟,从人脸识别、关键字识别,到现在的ChatGPT,计算机逐渐开始取代一部分人类不擅长的工作,这是AI的使命。加之几位创始人的求学背景和工作经历,使得利用存算技术打造AI芯片成为了自然而然的选择。

目前,苹芯科技的整个芯片迭代验证过程已经完成了四次流片,每次流片验证的目标都不尽相同:有从模拟到数字的验证;有从小算力(几十个GOPS)到大算力(1T GOPS)的可延续性验证;还有从存算加速内核到SoC的验证等等。验证结果表明,存算技术可以进行矩阵和向量逻辑的加速运算,能够实际运行若干个比较典型的神经网络。即便在软件不做优化的条件下,也有比冯·诺依曼架构能效比至少提高5-10倍的结果,符合预期。

但,“同一款芯片不可能同时在吞吐量、面积和能效比三项指标上都做到令人满意,芯片设计公司在底层技术上是讨论不出答案的。“杨越表示,这需要产品层、甚至是应用层给出指导反馈意见,需要以产品和客户需求为驱动,“我们一开始专注做底层加速单元设计的时候,对此是并不清晰的,需要一个逐渐成长的过程。”

接下来,在SoC层面,苹芯科技的思路是不仅仅要支持某一类垂直应用,还要提高芯片通用性,让更多客户可以触达同一款芯片,或者说用同一款芯片触达更多客户。用“宽度+广度”的描述也许更容易理解:宽度,由于存算支持的是比特级、阵列式运算,平行度比较高,除AI类应用之外,一些非AI类应用也非常适合;广度,如果仍然还要在AI领域内寻找新战场,以IP形式加速大芯片计算过程中的某一部分张量、向量和矩阵的运算,会有比较多的机会。

当然,一些战略层面的思考和提前布局也十分必要,杨越及其带领的团队还需要回答一系列关键问题:比如在新工艺节点上是否具有可持续性?晶圆代工厂是不是能够支持更高制程工艺,可靠度如何?新兴存储器的选择、时间点切入、量产风险?如何在合适的行业赛道中找到合适的战略合作伙伴?等等。

“万丈高楼平地起” 

这是一句中国的老话。意思是再激动人心的远方,也要依赖于坚实的基础和天才的创新。对于存内计算来说,抛开基础存储器件去谈无异于“纸上谈兵”,对于这一点,无论是国际存储巨头,还是苹芯科技这样的初创新锐,他们都有着清醒的认识。

目前,存内计算的主流技术路线分为3种,分别是Flash、静态随机存储器(SRAM)和阻变式存储器(RRAM),苹芯科技选择了SRAM。

“选择SRAM,我们有着多方面的考量,包括SRAM对高端制程工艺有着比较好的兼容性,产品可靠性更高。同时,在下游的供应链环节,公司可以更容易获得流片的渠道、代工厂相关制程工艺的提供和稳定性也有保障。”杨越说,尽管团队一些核心成员此前在磁性存储器(MRAM)、忆阻器方面有着深厚的积累,但就当下而言,选择SRAM对于苹芯科技短期内迅速将存算技术产品化、可落地,树立企业品牌,积累客户信任度,是非常好的选择。

从应用层来看,考虑到在实际处理比较复杂的AI模型过程中,并不可能将全部模型一次性放入内存中,反而是以“层”为单位进行数据处理。这样,作为易失性存储器的SRAM由于没有擦写次数上限,避开了一些非易失性存储器面临的内存管理等难题。

但他并不否认Flash和RRAM也有各自的优势,例如它们的存储密度相对SRAM会更高,在学术界,曾有人提出RRAM一个存储单元就相当于普通内存11比特的存储量,非常有吸引力;两者都属于非易失性存储器,即使遭遇断电,数据也不会遗失,相关的工艺和功耗表现也都十分出色。

“行业内近期的确出现了不少致力于存算一体化的公司,但各家的目标市场、底层技术路线、实现存算一体的路径都不相同。事实上,目前还没有看到任何一家的技术方案是完全一样的,这是一个排列组合、百花齐放的过程。”杨越强调称。

曾有行业人士进行过预估,存内计算大概会比现有芯片的理论极限再高出1000倍。这意味着存内计算未来可能还有几百、几千倍的发展空间,各家公司从现有端侧产品线向更高算力迈进的趋势也应该会逐渐明朗起来。

如前文中所述,AI只是阵列式运算加速的一部分,当一个小的存算内核足够稳定,设计足够优秀的时候,我们可以通过堆叠的方式向大算力应用领域迈进。从底层器件角度分析,新兴存储器在过去几年内发展非常快,良率、误比特率(Bit Error Rate)提升幅度极大,像忆阻器这样的技术有望在未来几年内成熟起来,带动“混合计算”模式成为主流。

杨越解释说,之所以会出现“混合计算”模式,是因为现在的计算机体系正呈现出类似金字塔式的分级架构,如果存算也参与了整个数据的计算和处理,那么存储器也会有相应的层次结构(Memory Hierarchy),例如基于RRAM去完成数据量较大的计算,而SRAM更适合那些追求速度或是精度的计算。以AI模型为例,内部不同的计算密集型和存储密集型运算,就应该寻找不同存储介质去完成各自所擅长的工作。

结语

继续完成存算一体芯片产品设计优化与系统搭建,与市场协同验证迭代产品设计,推动完成存算一体技术实施落地的完整产业化流程,这是苹芯科技接下来要做的“三件大事”。杨越说,存算带来的性能上的巨大提升,是“看得见、摸得着”的事情,但如何将运算效率从内核级上升到系统级,是所有存算公司需要解决的核心问题。

本文为《电子工程专辑》2023年6月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
Rapidus将与博通合作分享其2纳米制程芯片原型,并推动芯片生产的外包。一旦博通确认了芯片性能,Rapidus将能够向博通的客户提供芯片。
此次收购被视为奥康国际跨界进入半导体行业的重大举措,旨在通过多元化发展来改善公司的财务状况。但交易双方进行了多轮协商和谈判后,在交易方案的细节条款上存在分歧……
有消息称,尽管富士康和Dixon已经获得了达到生产目标的付款批准,但它们仍希望获得更多资金。如果成功,富士康可能获得高达60亿卢比的补贴。
美国亚利桑那州坦佩的亚利桑那州立大学(ASU)研究园将成为第三个旗舰研发设施的预期选址,这些设施将集中于前沿技术的研发和应用。亚利桑那州中心的成立标志着将技术商业化引入美国的重大转变......
小米董事长兼CEO雷军在微博发文宣布,“小米超级电机V8s”项目组获得了今年小米集团内部最高级别的技术奖项,奖金为1000万元人民币。
英特尔临时联席CEO Michelle Johnston还表示,“英特尔会在2025年及以后继续增强AI PC产品组合,向客户提供领先的英特尔18A产品样品,并在2025年下半年量产”。
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
2025年1月9日,美国 拉斯维加斯丨全球瞩目的国际消费电子产品展(CES 2025)盛大开幕,来自世界各地的科技巨头与创新企业齐聚一堂共同展示最新的科技成果。中国高性能微控制器产品及嵌入式解决方案提供商上海先楫半导体科技有限公司(先楫半导体,HPMicro)闪耀登场,发布了专注于机器人运动与控制的高性能MCU产品——HPM6E8Y系列,为火热的机器人市场注入新的活力。
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
来源:《中国半导体大硅片年度报告2024》2016 年至 2023 年间,全球半导体硅片(不含 SOI)销售额从 72.09 亿美元上升至121.29 亿美元,年均复合增长率达 7.72%。2016
一.前言前面我们在https://mp.weixin.qq.com/s/s3uC-SHaVcXWAZK1sK6EZw?token=6568576&lang=zh_CN《WSL2中配置支持UVC》一文中
手机充电器ic U6773S助推充电便利好享受面对手机存储空间不足的问题,我们可以从多个方面入手,清理缓存、卸载不必要的应用、移动文件至外部存储、使用云存储服务等等。面对手机充电器充电速度慢、效率低的
中国上海,2025年1月9日——中微半导体设备(上海)股份有限公司(以下简称“中微公司”,上交所股票代码:688012)和南昌中微半导体设备有限公司共同拥有的发明专利“一种化学气相沉积装置及其清洁方法
当地时间2025年1月7日,全球备受期待的技术盛宴——国际消费电子展(CES 2025)在美国拉斯维加斯盛大开幕。作为显示领域的领军企业,天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场,带来手
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
 △广告 与正文无关 日前,苏州西典新能源电气股份有限公司(股票代码:603312,以下简称“西典新能”)发布公告称,公司经过3年多的产品和工艺研发及设备攻关,信号采集组件FCC技术取得重大进展,公司
日前,微信安卓版迎来8.0.56正式版更新,这是2025年首次版本更新。关于更新内容,依然是那9个字:“修复了一些已知问题”。虽然官方没有公布具体更新内容,但体验后发现,新版增加了朋友圈视频倍速播放等
近日,由工业和信息化部、国家广播电视总局、国家知识产权局联合评选的“2024年度视听系统典型案例”公示名单正式发布。聚飞光电自主研发的大尺寸 Micro LED 超高清显示屏系统经专家评审及公示程序,
 △广告 与正文无关 1月3日,The Elec援引电子元件专业媒体内容表示,尽管取代中国PCB的努力仍在继续,但预计到2028年,中国(包括大陆和台湾省)在全球PCB销售中的份额将超过60%,在市场