近年来,非易失性存内计算(nvCIM)作为一种新兴的体系架构,为在资源有限的边缘系统中处理数据密集型的人工智能(AI)任务提供了可能。基于阻变存储器(RRAM)的存内计算技术是实现nvCIM的有力竞争者。通过将神经网络中的权重矩阵部署到RRAM交叉阵列上,利用欧姆定律和基尔霍夫定律加速矩阵向量乘法计算,可显著降低数据在计算和存储单元之间的搬运,从而增加系统的推理速度和能效。但现有的nvCIM架构在匹配边缘AI系统方面还存在一些挑战:软件方面,由于传统深度学习算法所需的精度高,导致存储和计算成本的提升;硬件方面,模数转换器(ADC)和灵敏放大器(SA)等外围电路的使用大幅增加了芯片的面积和功耗。
针对这些问题,微电子所微电子器件与集成技术重点实验室刘明院士团队开发了一款面向二值神经网络(BNN)的数字型RRAM宏级存内计算芯片(3T2R-Macro)(图1a)。通过使用分压原理映射二值神经网络权重矩阵,利用反相器将乘加计算结果量化为稳定的电压输出。该设计省去了外围ADC或SA,有效减少了芯片面积、能耗和延迟,提高了对噪声的鲁棒性。团队还利用软—硬件协同设计方法,通过调节反相器供电电压,实现了3T2R-Macro片上二值卷积神经网络模型中批量归一化(Batch Normalization)和激活函数(Activation)计算(图1b)。该3T2R-Macro设计在CIFAR-10和MNIST数据集上分别实现了86.2%和95.6%的识别率(图1c)。180 nm工艺节点仿真结果表明芯片最小计算延时为8 ns(图1d),峰值能效为51.3 TOPS/W(图1e)。相较于已报道的基于电流累积型模拟nvCIM设计,3T2R-Macro节省了10%的芯片面积和30%乘加计算能耗,提升了20%系统鲁棒性。这一研究结果为在资源有限的边缘系统部署AI任务提供了一种高效的解决方案。
该项目得到了科技部、国家自然科学基金委、中科院和香港大学的支持。成果近期发表在IEEE Transactions on Circuits, Systems II: Express Briefs(TCAS-II)期刊上(DOI: 10.1109/TCSII.2022.3233396),微电子所博士研究生李熠为文章的第一作者,香港大学王中锐博士和微电子所尚大山研究员为该文章的共同通讯作者。
图1. (a) 3T2R-Macro 结构、工作原理与电压输出结果;(b) 二值卷积神经网络片上批量归一化和激活函数功能实现;(c)3T2R-Macro在MNIST和CIFAR-10数据集上识别率;(d)3T2R-Macro的操作延迟;(e)3T2R-Macro与已报道的电流累积型nvCIM设计的芯片功耗对比
论文信息:
https://doi.org/10.1109/TCSII.2022.3233396
An ADC-less RRAM-based Computing-in-Memory Macro with binary CNN for Efficient Edge AI
Li Yi, Chen Jia, Wang Linfang, Zhang Woyu, Guo Zeyu, Wang Jun, Han Yongkang, Li Zhi, Wang Fei, Dou Chunmeng, Xu Xiaoxin, Yang Jianguo, Zhongrui Wang,* Dashan Shang*
IEEE Transactions on Circuits, Systems II: Express Briefs (TCAS-II)(2023)
DOI: 10.1109/TCSII.2022.3233396