在计算中使用某种形式的存储器以实现“存内计算”或是“存算一体”的做法,最近成为了人们热议的焦点。由于能够突破冯·诺依曼(von Neumann)架构中令人生厌的“存储墙”和“功耗墙”,这些新的架构被视作未来30年内,推动“数据计算的文艺复兴”时代到来的关键力量。

在计算中使用某种形式的存储器以实现“存内计算”或是“存算一体”的做法,最近成为了人们热议的焦点。由于能够突破冯·诺依曼(von Neumann)架构中令人生厌的“存储墙”和“功耗墙”,这些新的架构被视作未来30年内,推动“数据计算的文艺复兴”时代到来的关键力量。

人工智能,“存内计算”的加速器

其实,“存内计算”并不是什么全新的概念,“存储墙”一词在上世纪70年代就有人提出过。苹芯科技联合创始人兼首席执行官杨越在接受《电子工程专辑》独家专访时指出,对比40年前,PC时代的发展诞生了英特尔、AMD这样的公司;20年前,移动互联网时代对并行处理海量数据的能力提出了新要求,英伟达GPU开始“大杀四方”;进入人工智能时代后,信息量呈现爆炸式增长,但考虑到时延、安全、成本等原因,把所有数据都放到云端去进行处理和传输、存储和分析又是不适合的。

于是,算力下沉的趋势开始呼唤一项新的技术,要求能够在追求更好性能、更高效率的同时实现低功耗、低延迟和低成本。而存内计算方案由于无需频繁搬用数据,能耗显著降低,简化的存算结构更易于硬件实现,更符合AI时代的要求。

苹芯科技联合创始人兼首席执行官杨越

众所周知,算法(Algorithm)、数据(Data)和计算能力(Computing)并称为新AI时代三大驱动力,但在实际应用中,我们发现尽管很多AI硬件平台都展示了自身所具备的强大算力,然而当用户在真正运行一个应用时,却常常发现由于存储带宽和存储架构的限制,很难将所有的AI运算单元填满,从而导致硬件的计算效率低下。比如GPU的整个计算单元利用率就不高,只有15%-30%,其余都需要通过软件,甚至应用层来做适配。

而在设计AI平台的时候,大量运算引擎所带来的能量消耗也是不可忽视的。测试数据显示,如果将完成16位整数加法能量消耗定义为1,那么将32比特的数据从DDR内存传输到芯片中,就将花费1万倍的能量消耗。因此,过大的访问带宽将会直接导致AI芯片功耗高居不下。

在杨越看来,AI计算中最底层,且占绝大部分运算量的基础算子(张量、矩阵、向量)运算,是非常适合于在内存中完成的。而且,在端侧推理运算中,显著特征之一就是权重的部分参数在整个运算中保持不变,也特别适合把数据留在内存中参与运算。最后,由于绝大多数的计算机在芯片内部的能量损耗,主要是来自数据/内存间的搬运读写,如果能够节省这部分的功耗,对计算效率的提升可想而知。

“从最朴素的逻辑来讲,存算一体应该是为阵列式运算进行加速最有力的武器。”他说。

不过,“存内计算”概念虽然提出很久,但始终未能实现大规模量产与普及应用。“一项技术的商业落地,不仅仅是在实验室和公司内部实现自证,更多是要在应用层面上得到产业链上下游的认可,我认为目前的生态系统还属于建设早期。”杨越分析认为,客户有自己的产品设计思考和运维周期,对于是采用低风险的成熟技术,还是风险稍大的新技术,他们有着自己的考虑,这不仅仅是一个单纯的技术问题。

其实这与GPU刚被应用于通用计算时的情形非常相似,用户也是在CUDA逐渐搭建起来之后才对GPU产生了兴趣,愿意切换生态。从某种程度上来说,“如果有一天面向存算的CUDA生态成熟起来,那就完全是另外一种局面了。”

其实,大家愿意用存算一体化技术的原因,无外乎是欣赏存算核心的高能效比与计算效率。但在实际使用过程中,面对诸如参数如何配置?输入输出什么样的时序?等问题时,用户可能并不熟悉,这就要求存算一体公司拥有自己的产品、软件和开发工具,并且生态足够好、足够完备。

杨越建议未来“存内计算”的生态壁垒可以从技术和战略两个层面加以突破。例如在技术层面,要对“用户的编程接口”和“统一指令集”给出清晰定义,这样既决定了软件内容,也便于用户直接调用基于存算的运算库,而不必了解底层硬件实现形式;战略层面,除了国家政策导向外,还要强化与高校和国际同行的合作,更有助于该技术的推广与应用。

小步快跑

作为一家成立于2021年的存内计算“新势力”,苹芯科技的定位是一家专注于AI芯片存内计算技术研究与应用的公司,已经流片发布的两款产品中,一款用于端侧智能语音检测,另一款则偏重图像视频处理。考虑到存算一体技术相对来说还比较新,需要不断地打磨和迭代,苹芯科技在前期采用了“小步快跑”的策略,力争尽快完成多次流片验证。下一步,除了更多关注算力升级,覆盖更多大算力模型和不同类型的数据格式外,加速产业化和商业化落地,会是苹芯科技更加关注的方向。

之所以选择AI芯片这一赛道,杨越总结了两方面的原因:一是从时间节点上看, AI开始真正的在许多行业里落地; 二是, 新型存储器底层技术的加速成熟,从人脸识别、关键字识别,到现在的ChatGPT,计算机逐渐开始取代一部分人类不擅长的工作,这是AI的使命。加之几位创始人的求学背景和工作经历,使得利用存算技术打造AI芯片成为了自然而然的选择。

目前,苹芯科技的整个芯片迭代验证过程已经完成了四次流片,每次流片验证的目标都不尽相同:有从模拟到数字的验证;有从小算力(几十个GOPS)到大算力(1T GOPS)的可延续性验证;还有从存算加速内核到SoC的验证等等。验证结果表明,存算技术可以进行矩阵和向量逻辑的加速运算,能够实际运行若干个比较典型的神经网络。即便在软件不做优化的条件下,也有比冯·诺依曼架构能效比至少提高5-10倍的结果,符合预期。

但,“同一款芯片不可能同时在吞吐量、面积和能效比三项指标上都做到令人满意,芯片设计公司在底层技术上是讨论不出答案的。“杨越表示,这需要产品层、甚至是应用层给出指导反馈意见,需要以产品和客户需求为驱动,“我们一开始专注做底层加速单元设计的时候,对此是并不清晰的,需要一个逐渐成长的过程。”

接下来,在SoC层面,苹芯科技的思路是不仅仅要支持某一类垂直应用,还要提高芯片通用性,让更多客户可以触达同一款芯片,或者说用同一款芯片触达更多客户。用“宽度+广度”的描述也许更容易理解:宽度,由于存算支持的是比特级、阵列式运算,平行度比较高,除AI类应用之外,一些非AI类应用也非常适合;广度,如果仍然还要在AI领域内寻找新战场,以IP形式加速大芯片计算过程中的某一部分张量、向量和矩阵的运算,会有比较多的机会。

当然,一些战略层面的思考和提前布局也十分必要,杨越及其带领的团队还需要回答一系列关键问题:比如在新工艺节点上是否具有可持续性?晶圆代工厂是不是能够支持更高制程工艺,可靠度如何?新兴存储器的选择、时间点切入、量产风险?如何在合适的行业赛道中找到合适的战略合作伙伴?等等。

“万丈高楼平地起” 

这是一句中国的老话。意思是再激动人心的远方,也要依赖于坚实的基础和天才的创新。对于存内计算来说,抛开基础存储器件去谈无异于“纸上谈兵”,对于这一点,无论是国际存储巨头,还是苹芯科技这样的初创新锐,他们都有着清醒的认识。

目前,存内计算的主流技术路线分为3种,分别是Flash、静态随机存储器(SRAM)和阻变式存储器(RRAM),苹芯科技选择了SRAM。

“选择SRAM,我们有着多方面的考量,包括SRAM对高端制程工艺有着比较好的兼容性,产品可靠性更高。同时,在下游的供应链环节,公司可以更容易获得流片的渠道、代工厂相关制程工艺的提供和稳定性也有保障。”杨越说,尽管团队一些核心成员此前在磁性存储器(MRAM)、忆阻器方面有着深厚的积累,但就当下而言,选择SRAM对于苹芯科技短期内迅速将存算技术产品化、可落地,树立企业品牌,积累客户信任度,是非常好的选择。

从应用层来看,考虑到在实际处理比较复杂的AI模型过程中,并不可能将全部模型一次性放入内存中,反而是以“层”为单位进行数据处理。这样,作为易失性存储器的SRAM由于没有擦写次数上限,避开了一些非易失性存储器面临的内存管理等难题。

但他并不否认Flash和RRAM也有各自的优势,例如它们的存储密度相对SRAM会更高,在学术界,曾有人提出RRAM一个存储单元就相当于普通内存11比特的存储量,非常有吸引力;两者都属于非易失性存储器,即使遭遇断电,数据也不会遗失,相关的工艺和功耗表现也都十分出色。

“行业内近期的确出现了不少致力于存算一体化的公司,但各家的目标市场、底层技术路线、实现存算一体的路径都不相同。事实上,目前还没有看到任何一家的技术方案是完全一样的,这是一个排列组合、百花齐放的过程。”杨越强调称。

曾有行业人士进行过预估,存内计算大概会比现有芯片的理论极限再高出1000倍。这意味着存内计算未来可能还有几百、几千倍的发展空间,各家公司从现有端侧产品线向更高算力迈进的趋势也应该会逐渐明朗起来。

如前文中所述,AI只是阵列式运算加速的一部分,当一个小的存算内核足够稳定,设计足够优秀的时候,我们可以通过堆叠的方式向大算力应用领域迈进。从底层器件角度分析,新兴存储器在过去几年内发展非常快,良率、误比特率(Bit Error Rate)提升幅度极大,像忆阻器这样的技术有望在未来几年内成熟起来,带动“混合计算”模式成为主流。

杨越解释说,之所以会出现“混合计算”模式,是因为现在的计算机体系正呈现出类似金字塔式的分级架构,如果存算也参与了整个数据的计算和处理,那么存储器也会有相应的层次结构(Memory Hierarchy),例如基于RRAM去完成数据量较大的计算,而SRAM更适合那些追求速度或是精度的计算。以AI模型为例,内部不同的计算密集型和存储密集型运算,就应该寻找不同存储介质去完成各自所擅长的工作。

结语

继续完成存算一体芯片产品设计优化与系统搭建,与市场协同验证迭代产品设计,推动完成存算一体技术实施落地的完整产业化流程,这是苹芯科技接下来要做的“三件大事”。杨越说,存算带来的性能上的巨大提升,是“看得见、摸得着”的事情,但如何将运算效率从内核级上升到系统级,是所有存算公司需要解决的核心问题。

本文为《电子工程专辑》2023年6月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
9月9日,爱企查App显示,天津三星电子有限公司的经营状态由存续变更为注销。
拍卖标的包括三项域名以及15项软件著作权和14项专利。其中,三项域名的起拍价为13879元,15项软件著作权和14项专利的起拍价为15550元……
根据通知书内容,因某种未具体披露的原因,丹东市振安区监察委员会决定对肖永辉采取留置措施,并对其立案调查。此消息一出,立刻引起了市场的广泛关注。
值得一提的是,台积电此次购入价格可能远低于原定的3.5亿欧元的单台报价。ASML同意以折扣价向台积电出售High-NA EUV设备的原因主要是因为台积电是其超级VIP客户,ASML给予了很大的让步。
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
自台积电宣布在美国亚利桑那州建设首座晶圆厂以来,该项目就备受瞩目。在台积电美国厂建厂期间也传出不少质疑的声音。近日,有关台积电在美国亚利桑那州的晶圆厂传出试产新进展,新厂4月工程晶圆试产良率媲美台湾南科厂,该消息再次引发了业界的高度关注......
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
在当今人工智能飞速发展的时代,AI Agent正以其独特的方式重塑着企业的生产运营方式。澜码科技作为AI Agent领域的先行者,其创始人兼CEO周健先生分享了对大模型与AI Agent发展现状的深刻
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆