在最近的国际固态电路会议(ISSCC 2021)上,科学家们针对新颖的存储器阵列技术开展了激烈的讨论,其目的是想进一步提高机器学习算法的计算需求。到底怎么样改善性能?如何实现边缘的机器学习算法。

数字内存之前整个过程是将数据和权重值从内存移动到处理单元,然后将中间结果存储回内存的。这种方式导致了信息传输计算延迟,而且相关的器件功耗也是一个主要的问题。如下图所示,“无增值”数据移动占耗散能量的很大百分比,甚至可能大于“增值”计算的能量消耗。值得注意的是,实际的计算能耗是与数据和权重传递到计算单元相关能量的一小部分。在内存中计算的主要目标是减少这些低效率、低延迟,这对于在边缘实施机器学习推理系统尤其重要。

机器学习中的内存计算主要重点是优化与每个神经网络节点关联的向量乘法的累加(MAC)操作。下图说明了训练网络的计算---每个数据输入乘以权重值,然后提供给偏差和激活函数,从而训练网络的连接权值。

对于一般网络,数据和权重通常是多位数。权重向量(对于经过训练的边缘AI网络)可以使用有符号,无符号或二进制补码等表示形式。对于内存计算,最终的MAC输出是通过添加部分乘法来实现的。节点中每个(数据*权重)的位宽是定义明确的。例如,2n位向量覆盖2n位无符号整数的乘积。但是,将所有的(数据*权重)乘积累加到高度连接的网络中可能需要更多的位才能准确表示MAC结果。

内存计算作为研究重点领域之一是使用电阻RAM(ReRAM)单元实现电流检测测量。数据输入和存储在ReRAM单元中的权重值的乘积会产生可区分的线电流,该电流用于为参考电容充电。后续的模数转换器(ADC)将该电容器电压转换为等效的二进制值,以为后续的MAC移位累加。尽管(数据*权重)产品基于ReRAM实现的具有区域效率,但它也有其缺点:

由于电压范围,噪声和PVT的变化,模拟线电流检测和ADC的精度受到限制 ReRAM阵列的写入周期时间长 ReRAM阵列的耐用性严重限制了其作为通用内存存储阵列的适用性

这些问题都得出相同的结论。对于一个相对较小的神经网络,其中所有权重都可以加载到内存阵列中,并且数据矢量表示受到限制(例如8位或更少),基于ReRAM的实现将带来区域优势。

但是,对于需要网络大于阵列中存储的网络,或需要重新配置的工作量的机器学习应用程序,更新权重值通常会阻止使用ReRAM当前检测方法。在数据精度要求很高的情况下,同样的问题也适用,因此需要更大的输入向量。

内存中计算体系结构的替代方法是利用增强的SRAM阵列来支持(数据*权重)计算,而不是采用新颖的存储技术。这允许支持更丰富的机器学习网络集。如果层数很大,则可以将输入值和权重值加载到SRAM阵列中以进行节点计算,保存输出值以及检索后续的层值。与通用计算解决方案相比,减少了与数据和权重传递相关的能耗,并且消除了ReRAM耐久性的问题。

使用扩展SRAM设计的内存中计算

在最近的ISSCC上,台积电的研究人员提出了一种用于内存计算的方法:基于数字的改良SRAM设计,这将会支持更大的神经网络。

上图显示了台积电用于其测试车辆的扩展SRAM阵列配置-阵列的一部分被圈出。每个切片具有256个数据输入,它们连接到“ X”逻辑。数据输入向量的连续位在连续的时钟周期中提供给“ X”门。每个条带存储256个4位权重段,每个数据输入一个权重半字节。这些权重位使用常规的SRAM单元,因为它们可能会经常更新。存储在每个权重位中的值连接到“ X”逻辑的另一个输入。

下图说明了如何将此逻辑集成到SRAM中。

“ X”是2输入或非门,具有数据输入和权重位作为输入。(两个“一位”值的乘积由“与”门实现;通过使用反相信号值和DeMorgan定理,2输入“或非”门在面积和功率方面都具有效率。)在每个限幅之间,有一个加法器和一个加法器。集成了部分和累加器逻辑,如下所示。

值得注意的是,上图中的加权位存储使用常规的SRAM拓扑-对于6T的位单元,加权位字线和位线照常连接。每个单元上的存储值都到或非门的一个输入。

每个切片的输出表示每个权重向量的半字节的部分乘积和。扩展数组之外的其他逻辑提供了移位和相加计算,以实现更宽的权重值表示。例如,有符号或无符号整数16位权重将合并来自四个条带的累加器结果。

测试现场结果

基于SRAM的Compute-in-Memory宏的关键规范之一是可以在阵列中更新新权重的效率。

相对于电源电压的测量性能(TOPS)和功率效率(TOPS / W)如下图所示。请注意,基于数字逻辑的MAC的使用可在很宽的电源电压范围内提供相关功能。

从理论上讲,通常用于描述神经网络实现功率效率的TOPS / W品质因数可能是一种误导性度量–它在很大程度上取决于阵列中权重的“密度”和翻转率下的图,说明了此度量如何取决于输入切换率,假设权重向量中“1”值的比率为50%。

尽管此内存计算测试站点是在较旧的22nm工艺中制造的,但将这种设计扩展到5nm节点时,TSMC研究人员提供了初步的面积和功率效率估算。

概括

目前正在进行大量研究活动,以支持用于机器学习的内存计算,以减少冯·诺依曼架构中数据传输效率低下的问题。研究的一个方面是寻求使用新的内存存储技术,例如ReRAM。ReRAM的有限耐用性将这种方法的范围限制在重量值不会经常更新的应用中。线电流检测的有限精度也限制了数据输入向量的宽度。

台积电(TSMC)展示了如何扩展常规SRAM阵列以支持大型可重新配置网络的内存计算,并且需要频繁写入权重值。在SRAM行和列之间插入2输入或非门和加法器逻辑提供了一种节省面积和功耗的方法。

责编:Gavin

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
新公司将包括本田、日产和三菱汽车,预计年销量将超过800万辆,成为世界第3大汽车制造集团。这将使新公司在全球汽车市场中占据重要地位,尤其是在与特斯拉和中国电动车品牌的竞争中。
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
印度政府希望通过这一系列的方式,“推动”中国品牌更深入地“融入”印度市场,并“加强”与当地的经济合作,比如鼓励中国企业与本土电子制造商建立合作关系,共同在印度生产智能手机。而vivo印度公司此次与迪克森成立合资公司,就是在以上政府指引下无奈作出的选择。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
此次柔宇显示名下资产的拍卖页面自11月28日就已经上线,直至12月15日拍卖结束,在这长达半个多月的时间里,始终没有任何人报名参与竞拍。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题
亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天!还没报名的小伙伴,抓紧报名噢,12月21日不见不散!大会时间与地点时间:2024年12月21日 9:30-1