【DAC2024】存内计算新进展

原创 芯思想 2024-07-15 10:50

存内计算(Compute-in-Memory/Computing-in-memoryCIM)以在现代数据密集型工作负载应用程序中降低数据移动能量和延迟成本。DAC2024录用CIM相关文章16篇,主要分布在两大SESSION中,主要介绍了CIM在架构、电路、器件、设计方法的最新进展。

SESSION:MEMORIES HAVE A MIND OF THEIR OWN共录用了6篇文章,有4篇来自中国大陆高校;第一篇论文介绍了一种用于扩散模型中灵活数据重用的三齿轮异构数字CIM;第二篇论文提出了一种基于hessian迹的量化和近似计算的细粒度数字CIM;第三篇论文提出了一个混合域SRAM CIM宏,通过数模计算协同来协调精度和能效;第四篇和第五篇将RRAMIGZO应用于CIM中;第六篇论文提出了一种替换设计,允许对内存访问和主机访问中的处理进行细粒度交错。

下面我们来看看六篇文章的核心论点:

PaperAIG-CIM: A Scalable Chiplet Module with Tri-Gear Heterogeneous Compute-in-Memory for Diffusion Acceleration》在人工智能生成内容领域,扩散模型以其卓越的图像生成能力受到了广泛关注。然而,由于其独特的模型架构和计算需求,扩散模型在硬件部署方面面临着巨大挑战。针对这一问题,北京大学的黄如院士-叶乐教授团队提出了一种名为AIG-CIM的硬件加速器。该加速器采用三档异构数字存算一体技术,以满足扩散模型灵活的数据重用需求。AIG-CIM框架提供了一种从计算电路级到多芯片模块系统级的大型生成模型协作设计方法,该工作在22nm工艺下进行评估,在多个扩散推理任务中,可扩展的AIG-CIM芯粒相比RTX 3090 GPU实现了21.3倍的延迟减少、最高231.2倍的吞吐量提升以及1000倍以上的能效提升。

1. AIG-CIM:从数字存算单元到SoC

2. AIG-CIM SoC 实现和CIM tile 版图

PaperFDCA: Fine-grained Digital-CIM based CNN Accelerator with Hybrid Quantization and Weight-Stationary Dataflow》面向卷积神经网络加速器对高能效的需求,设计并实现了一款基于数字存内计算的细粒度卷积神经网络加速器FDCA,通过混合位宽量化和权重驻留数据流优化,实现了能效与计算精度的平衡,突破了传统数字存内计算架构中寄生效应带来的能效瓶颈。团队提出了基于海森迹的混合位宽量化方案和基于笛卡尔遗传算法的近似移位累加技术,实现了基于计算负载与存储带宽平衡的混合位宽量化,通过近似加法树的自适应设计来补偿存算电路引入的计算误差,大幅提升硬件能效并有效降低计算精度损失。同时,优化的权重驻留数据流提高了存内计算单元的利用率,并减少了额外的片上存储需求。该工作在28nm下进行评估,实验结果表明在CIFAR100数据集上运行VGG16ResNet50网络时,该加速器能效分别达到17.1TOPS/W18.79TOPS/W,且网络识别精度仅下降了0.71%0.98%。此外,优化后的权重驻留数据流在处理AlexNetVGG16ResNet50网络推理运算时,将硬件利用率分别提升了36%5.5%73.6%。东南大学集成电路学院刘波副教授、蔡浩教授为论文一作和通讯作者。

3. 本文所使用的细粒度数字存内计算模型与提出的FDCA架构

4. (a)混合位宽量化模型在ResNet50VGG16上的实现; (b) 面向细粒度数字存算优化的权重驻留数据流

PaperAddition is Most You Need: Efficient Floating-Point SRAM Compute-in-Memory by Harnessing Mantissa Addition》存内计算在高效加速机器学习任务方面具有巨大潜力。在众多存储器件中,SRAM因其在数字领域的卓越可靠性和优秀的可扩展性而脱颖而出。近年来,加速浮点DNN(深度神经网络)的SRAM CIM引起了越来越多的关注,因为它们在DNN训练和高精度推理中具有关键作用。乔治华盛顿大学和美国东北大学的研究团队提出了一种将传统的浮点尾数乘法分解为尾数子加法和尾数子乘法两部分的轻量化方法。针对尾数子加法和尾数子乘法的不同计算特性,开发了一种新颖的混合域SRAM CIM宏单元,在数字域中准确处理尾数子加法,同时使用模拟计算提高尾数子乘法的能效。通过MLPerf基准测试,研究团队的实验结果显示,与完全数字化设计基准相比,推理能效平均提高了3倍至3.6倍,训练能效则提升了2.5倍至3.1倍,且没有任何精度损失,展示了其加速浮点深度神经网络的巨大潜力。

5. (a) 所提出的浮点SRAM存算一体宏的结构概览 (b) 计算流程。 (c) 在时间域中提取指数差的示意图。 (d) 基于指数差的尾数移位示意图(以FP16为例)

6.  HD-MVA的结构 (b) 用于局部计算单元的基本电路,如模拟乘法单元和数字与门及或门 (c) 实现所提出的混合计算机制的局部计算单元

PaperRWriC: A Dynamic Writing Scheme for Variation Compensation for RRAM-based In-Memory Computing》香港科技大学和南方科技大学合作研制了一款面向RRAM存内计算的动态写入方案RWriC,用于补偿RRAM中的设备间差异和周期间差异,显著提升了神经网络推理的准确性。为了在有限的硬件开销下,解决传统RRAM写入过程中由于差异导致的推理准确度下降问题,创新性地融合了编程目标移位和缩放技术,使得高显著性单元和低显著性单元可以协同工作,有效补偿编程误差,最小化整体误差累积。团队提出的基于编程目标移位和缩放的动态写入技术,利用高显著性单元的编程目标动态调整,使低显著性单元能够在编程范围内进行补偿;通过缩放技术扩展低显著性单元的补偿范围,防止编程目标超出设备的可编程范围。实验结果显示,通过移位和缩放技术,RWriC在面对不同的神经网络模型和数据集时均表现出了显著的鲁棒性和准确性提升。在18%的设备差异下,ResNet50CIFAR-10数据集上的推理准确性仅下降0.9%,相比传统写入方案在差异鲁棒性上提高了5 - 11倍。此外,RWriC的硬件开销很小,不需要额外的离线训练,确保了其实用性和高效性。

7. 动态写入方案流程图与示例

8. 不同模型的推理精度

中国科学院微电子研究所的李泠、岳金山团队在《IG-CRM: Area/Energy-Efficient IGZO-Based Circuits and Architecture Design for Reconfigurable CIM/CAM Applications》提出IG-CRM架构,一种基于IGZOIndium-Gallium-ZineOxide,氧化铟镓锌)晶体管的可重构CIM(存内计算)和CAM(内容可寻址存储器)架构。该架构旨在解决现有CIM/CAM电路中的低密度和耐久性限制问题,利用IGZO晶体管的超低漏电流和高密度特性,实现了更高效的面积和能量利用率。他们团队提出一种基于IGZO3T0C/4T0C单元设计,实现CIMCAM功能,并与CMOS电压兼容。在电路层面,利用BEOL IGZO 晶体管减少数字加法树面积。在架构层面,提出可重构CIM/CAM架构,支持不同AI工作负载的高效利用。实验结果表明,IG-CRM与传统SRAM非可重构CIM/CAM基准相比,面积节省达8.09倍,速度提升最高可达1530倍,能效提高最高可达16300倍,展现出显著的性能优势。

9. (a) IGZO的横截面。(b) NMOS相比的传输曲线和漏电流。(c) IGZOIV曲线

10. 提出的可重构IG-CRM架构

韩国的Sung-Joon Jang 团队在《HAIL-DIMM: Host Access Interleaved with Near-Data Processing on DIMM-based Memory System》中介绍了HAIL-DIMM,一种基于LRDIMMNDPNear-Data Processing, 近数据处理)架构,旨在减少主机与存储之间的数据移动开销,同时确保系统公平性。HAIL-DIMM通过使用现有内存控制器的BANK 交叉存取功能,提出了一种支持细粒度NDP操作的架构,实现了NDP与主机访问的无缝交叉存取,并可以直接替换现有的主内存模块。此外,他们也提出了一种基于DMANDP卸载技术,用于细粒度NDP操作。团队在FPGA平台上实现了所提出的NDP架构原型,进行了可行性和性能评估。评估结果显示,与基准系统相比,HAIL-DIMM在内存受限负载中将内存延迟加速了高达2.19倍,同时降低了45.4%的数据移动能耗。

11. 传统的NDP架构

12. HALF-DIMM

13. HAIL-DIMM 上执行 NDP(近数据处理)操作的执行流程。此示例对数据内存和四个 DRAM 存储BANK中的数据执行逐元素乘法操作


致    谢

本文得到东南大学集成电路学院韦庆文和邹子涵同学的大力支持,再此深表感谢!

芯思想 中国半导体正能量传播平台。为中国半导体产业服务,我们都是中国半导体产业腾飞的见证人。新闻分析,精彩评论,独家数据,为您定制信息,欢迎拍名片回复,和行业精英交流。
评论
  • 由于该文反应热烈,受到了众多工程师的关注,衷心感谢广大优秀工程师同仁的建言献策。特针对该技术点更新一版相关内容! 再次感谢大家的宝贵建议!填充铜(Solid Copper)和网格铜(Hatched Copper)是PCB设计中两种不同的铺铜方式,它们在电气性能、热管理、加工工艺和成本方面存在一些区别:1. 电气性能:填充铜:提供连续的导电层,具有极低的电阻和最小的电压降。适合大电流应用,并能提供优秀的电磁屏蔽效果,显著提高电磁兼容性。网格铜:由于铜线之间存在间隔,电阻相对较高,电压降也
    为昕科技 2024-12-18 17:11 133浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 73浏览
  • 沉寂已久的无人出租车赛道,在2024年突然升温了。前脚百度旗下萝卜快跑,宣布无人驾驶单量突破800万单;后脚特斯拉就于北京时间10月11日上午,召开了以“We,Robot”为主题的发布会,公布了无人驾驶车型Cybercab和Robovan,就连低调了好几个月的滴滴也在悄悄扩编,大手笔加码Robotaxi。不止是滴滴、百度、特斯拉,作为Robotaxi的重磅选手,文远知行与小马智行,也分别在10月份先后启动美股IPO,极氪也在近日宣布,其与Waymo合作开发的无人驾驶出行汽车将大规模量产交付,无人
    刘旷 2024-12-19 11:39 135浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 116浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 125浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 75浏览
  • You are correct that the length of the via affects its inductance. Not only the length of the via, but also the shape and proximity of the return-current path determines the inductance.   For example, let's work with a four-layer board h
    tao180539_524066311 2024-12-18 15:56 127浏览
  • 在强调可移植性(portable)的年代,人称「二合一笔电」的平板笔电便成为许多消费者趋之若鹜的3C产品。说到平板笔电,不论是其双向连接设计,面板与键盘底座可分离的独特功能,再加上兼具笔电模式、平板模式、翻转模式及帐篷模式等多种使用方式,让使用者在不同的使用情境下都能随意调整,轻巧灵活的便利性也为多数消费者提供了绝佳的使用体验。然而也正是这样的独特设计,潜藏着传统笔电供货商在产品设计上容易忽视的潜在风险。平板笔电Surface Pro 7+ 的各种使用模式。图片出处:Microsoft Comm
    百佳泰测试实验室 2024-12-19 17:40 160浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 71浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 70浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 87浏览
  • ​本文介绍PC电脑端运行VMware环境下,同时烧录固件检测不到设备的解决方法。触觉智能Purple Pi OH鸿蒙开发板演示,搭载了瑞芯微RK3566芯片,类树莓派设计,Laval官方社区主荐,已适配全新OpenHarmony5.0 Release系统!PC端烧录固件时提示没有发现设备按照各型号烧录手册中进入loader模式的操作方法,让开发板连接到PC端。正常来说开发板烧录时会显示“发现一个LOADER设备”,异常情况下,会提示“没有发现设备”,如下图所示: 解决步骤当在烧录系统固
    Industio_触觉智能 2024-12-18 18:07 79浏览
  • 户外照明的“璀璨王者”,艾迈斯欧司朗OSCONIQ® C3030降临啦全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,推出新一代高性能LED——OSCONIQ® C 3030。这款尖端LED系列专为严苛的户外及体育场照明环境而设计,兼具出色的发光强度与卓越的散热效能。其支持高达3A的驱动电流及最大9W的功率输出,以紧凑扁平封装呈现卓越亮度和可靠性,确保高强度照明持久耐用且性能出众。应用领域01体育场及高杆照明OSCONIQ® C 3030以卓越的光通量密度、出
    艾迈斯欧司朗 2024-12-18 14:25 135浏览
  • By Toradex秦海1). 简介为了保证基于 IEEE 802.3 协议设计的以太网设备接口可以互相兼容互联互通,需要进行 Ethernet Compliance 一致性测试,相关的技术原理说明请参考如下文章,本文就不赘述,主要展示基于 NXP i.MX8M Mini ARM 处理器平台进行 1000M/100M/10M 以太网端口进行一致性测试的测试流程。https://www.toradex.com
    hai.qin_651820742 2024-12-19 15:20 127浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-18 14:02 120浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦