【DAC2024】存内计算新进展

原创 芯思想 2024-07-15 10:50

存内计算(Compute-in-Memory/Computing-in-memoryCIM)以在现代数据密集型工作负载应用程序中降低数据移动能量和延迟成本。DAC2024录用CIM相关文章16篇,主要分布在两大SESSION中,主要介绍了CIM在架构、电路、器件、设计方法的最新进展。

SESSION:MEMORIES HAVE A MIND OF THEIR OWN共录用了6篇文章,有4篇来自中国大陆高校;第一篇论文介绍了一种用于扩散模型中灵活数据重用的三齿轮异构数字CIM;第二篇论文提出了一种基于hessian迹的量化和近似计算的细粒度数字CIM;第三篇论文提出了一个混合域SRAM CIM宏,通过数模计算协同来协调精度和能效;第四篇和第五篇将RRAMIGZO应用于CIM中;第六篇论文提出了一种替换设计,允许对内存访问和主机访问中的处理进行细粒度交错。

下面我们来看看六篇文章的核心论点:

PaperAIG-CIM: A Scalable Chiplet Module with Tri-Gear Heterogeneous Compute-in-Memory for Diffusion Acceleration》在人工智能生成内容领域,扩散模型以其卓越的图像生成能力受到了广泛关注。然而,由于其独特的模型架构和计算需求,扩散模型在硬件部署方面面临着巨大挑战。针对这一问题,北京大学的黄如院士-叶乐教授团队提出了一种名为AIG-CIM的硬件加速器。该加速器采用三档异构数字存算一体技术,以满足扩散模型灵活的数据重用需求。AIG-CIM框架提供了一种从计算电路级到多芯片模块系统级的大型生成模型协作设计方法,该工作在22nm工艺下进行评估,在多个扩散推理任务中,可扩展的AIG-CIM芯粒相比RTX 3090 GPU实现了21.3倍的延迟减少、最高231.2倍的吞吐量提升以及1000倍以上的能效提升。

1. AIG-CIM:从数字存算单元到SoC

2. AIG-CIM SoC 实现和CIM tile 版图

PaperFDCA: Fine-grained Digital-CIM based CNN Accelerator with Hybrid Quantization and Weight-Stationary Dataflow》面向卷积神经网络加速器对高能效的需求,设计并实现了一款基于数字存内计算的细粒度卷积神经网络加速器FDCA,通过混合位宽量化和权重驻留数据流优化,实现了能效与计算精度的平衡,突破了传统数字存内计算架构中寄生效应带来的能效瓶颈。团队提出了基于海森迹的混合位宽量化方案和基于笛卡尔遗传算法的近似移位累加技术,实现了基于计算负载与存储带宽平衡的混合位宽量化,通过近似加法树的自适应设计来补偿存算电路引入的计算误差,大幅提升硬件能效并有效降低计算精度损失。同时,优化的权重驻留数据流提高了存内计算单元的利用率,并减少了额外的片上存储需求。该工作在28nm下进行评估,实验结果表明在CIFAR100数据集上运行VGG16ResNet50网络时,该加速器能效分别达到17.1TOPS/W18.79TOPS/W,且网络识别精度仅下降了0.71%0.98%。此外,优化后的权重驻留数据流在处理AlexNetVGG16ResNet50网络推理运算时,将硬件利用率分别提升了36%5.5%73.6%。东南大学集成电路学院刘波副教授、蔡浩教授为论文一作和通讯作者。

3. 本文所使用的细粒度数字存内计算模型与提出的FDCA架构

4. (a)混合位宽量化模型在ResNet50VGG16上的实现; (b) 面向细粒度数字存算优化的权重驻留数据流

PaperAddition is Most You Need: Efficient Floating-Point SRAM Compute-in-Memory by Harnessing Mantissa Addition》存内计算在高效加速机器学习任务方面具有巨大潜力。在众多存储器件中,SRAM因其在数字领域的卓越可靠性和优秀的可扩展性而脱颖而出。近年来,加速浮点DNN(深度神经网络)的SRAM CIM引起了越来越多的关注,因为它们在DNN训练和高精度推理中具有关键作用。乔治华盛顿大学和美国东北大学的研究团队提出了一种将传统的浮点尾数乘法分解为尾数子加法和尾数子乘法两部分的轻量化方法。针对尾数子加法和尾数子乘法的不同计算特性,开发了一种新颖的混合域SRAM CIM宏单元,在数字域中准确处理尾数子加法,同时使用模拟计算提高尾数子乘法的能效。通过MLPerf基准测试,研究团队的实验结果显示,与完全数字化设计基准相比,推理能效平均提高了3倍至3.6倍,训练能效则提升了2.5倍至3.1倍,且没有任何精度损失,展示了其加速浮点深度神经网络的巨大潜力。

5. (a) 所提出的浮点SRAM存算一体宏的结构概览 (b) 计算流程。 (c) 在时间域中提取指数差的示意图。 (d) 基于指数差的尾数移位示意图(以FP16为例)

6.  HD-MVA的结构 (b) 用于局部计算单元的基本电路,如模拟乘法单元和数字与门及或门 (c) 实现所提出的混合计算机制的局部计算单元

PaperRWriC: A Dynamic Writing Scheme for Variation Compensation for RRAM-based In-Memory Computing》香港科技大学和南方科技大学合作研制了一款面向RRAM存内计算的动态写入方案RWriC,用于补偿RRAM中的设备间差异和周期间差异,显著提升了神经网络推理的准确性。为了在有限的硬件开销下,解决传统RRAM写入过程中由于差异导致的推理准确度下降问题,创新性地融合了编程目标移位和缩放技术,使得高显著性单元和低显著性单元可以协同工作,有效补偿编程误差,最小化整体误差累积。团队提出的基于编程目标移位和缩放的动态写入技术,利用高显著性单元的编程目标动态调整,使低显著性单元能够在编程范围内进行补偿;通过缩放技术扩展低显著性单元的补偿范围,防止编程目标超出设备的可编程范围。实验结果显示,通过移位和缩放技术,RWriC在面对不同的神经网络模型和数据集时均表现出了显著的鲁棒性和准确性提升。在18%的设备差异下,ResNet50CIFAR-10数据集上的推理准确性仅下降0.9%,相比传统写入方案在差异鲁棒性上提高了5 - 11倍。此外,RWriC的硬件开销很小,不需要额外的离线训练,确保了其实用性和高效性。

7. 动态写入方案流程图与示例

8. 不同模型的推理精度

中国科学院微电子研究所的李泠、岳金山团队在《IG-CRM: Area/Energy-Efficient IGZO-Based Circuits and Architecture Design for Reconfigurable CIM/CAM Applications》提出IG-CRM架构,一种基于IGZOIndium-Gallium-ZineOxide,氧化铟镓锌)晶体管的可重构CIM(存内计算)和CAM(内容可寻址存储器)架构。该架构旨在解决现有CIM/CAM电路中的低密度和耐久性限制问题,利用IGZO晶体管的超低漏电流和高密度特性,实现了更高效的面积和能量利用率。他们团队提出一种基于IGZO3T0C/4T0C单元设计,实现CIMCAM功能,并与CMOS电压兼容。在电路层面,利用BEOL IGZO 晶体管减少数字加法树面积。在架构层面,提出可重构CIM/CAM架构,支持不同AI工作负载的高效利用。实验结果表明,IG-CRM与传统SRAM非可重构CIM/CAM基准相比,面积节省达8.09倍,速度提升最高可达1530倍,能效提高最高可达16300倍,展现出显著的性能优势。

9. (a) IGZO的横截面。(b) NMOS相比的传输曲线和漏电流。(c) IGZOIV曲线

10. 提出的可重构IG-CRM架构

韩国的Sung-Joon Jang 团队在《HAIL-DIMM: Host Access Interleaved with Near-Data Processing on DIMM-based Memory System》中介绍了HAIL-DIMM,一种基于LRDIMMNDPNear-Data Processing, 近数据处理)架构,旨在减少主机与存储之间的数据移动开销,同时确保系统公平性。HAIL-DIMM通过使用现有内存控制器的BANK 交叉存取功能,提出了一种支持细粒度NDP操作的架构,实现了NDP与主机访问的无缝交叉存取,并可以直接替换现有的主内存模块。此外,他们也提出了一种基于DMANDP卸载技术,用于细粒度NDP操作。团队在FPGA平台上实现了所提出的NDP架构原型,进行了可行性和性能评估。评估结果显示,与基准系统相比,HAIL-DIMM在内存受限负载中将内存延迟加速了高达2.19倍,同时降低了45.4%的数据移动能耗。

11. 传统的NDP架构

12. HALF-DIMM

13. HAIL-DIMM 上执行 NDP(近数据处理)操作的执行流程。此示例对数据内存和四个 DRAM 存储BANK中的数据执行逐元素乘法操作


致    谢

本文得到东南大学集成电路学院韦庆文和邹子涵同学的大力支持,再此深表感谢!

芯思想 中国半导体正能量传播平台。为中国半导体产业服务,我们都是中国半导体产业腾飞的见证人。新闻分析,精彩评论,独家数据,为您定制信息,欢迎拍名片回复,和行业精英交流。
评论 (0)
  •   有效数据智能分拣系统平台深度解析   一、系统概述   北京华盛恒辉有效数据智能分拣系统平台融合人工智能、机器视觉、物联网及大数据分析技术,为物流包裹、数据信息等提供高效精准的智能化分拣处理方案。通过自动化设备与智能算法协同运作,取代传统人工分拣模式,显著提升分拣效率、降低错误率,满足电商、快递及供应链不断增长的业务需求。   应用案例   目前,已有多个有效数据智能分拣系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润有效数据智能分拣系统。这些成功案例为有效数据智能分
    华盛恒辉l58ll334744 2025-04-21 16:22 50浏览
  • 导读在汽车测试和现代工业领域,功耗控制与效率优化是工程师们不断追求的目标。虹科PCAN Router系列设备以其卓越的性能和灵活性,为CAN/CAN FD网络中的报文转换提供了高效解决方案。本文将探讨虹科PCAN Router系列设备如何在保持高效工作的同时,通过低功耗模式和高效唤醒功能,满足对能耗有严格要求的应用场景。虹科PCAN Router系列网关1 低功耗模式的优势与实现在实际的工作场景中,可能会出现一些对功耗要求存在限制的情况。鉴于此,可以灵活设置虹科PCAN Router系
    虹科汽车智能互联 2025-04-21 15:45 36浏览
  •   有效数据智能分拣系统详解   北京华盛恒辉有效数据智能分拣系统融合人工智能、大数据分析与机器学习等前沿技术,实现海量数据自动化分类、筛选、整理及分配。凭借强大的数据处理效能,助力企业精准提取关键信息,优化决策流程,提升运营效率。以下从系统架构、核心功能、技术特性、应用场景及发展趋势展开解读。   应用案例   目前,已有多个有效数据智能分拣系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润有效数据智能分拣系统。这些成功案例为有效数据智能分拣系统的推广和应用提供了有力支持。
    华盛恒辉l58ll334744 2025-04-21 16:46 30浏览
  •   电磁信号模拟平台解析   北京华盛恒辉电磁信号模拟平台作为模拟复杂电磁环境的系统,在无线通信、电子对抗等多领域广泛应用。以下从功能、技术特性、应用场景及发展趋势展开详细解读。   应用案例   目前,已有多个电磁信号模拟平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁信号模拟平台。这些成功案例为电磁信号模拟平台的推广和应用提供了有力支持。   一、核心功能   复杂电磁环境建模:构建贴近真实的电磁环境,涵盖各类干扰因素。   多通道信号模拟:模拟多通道电磁信号
    华盛恒辉l58ll334744 2025-04-21 15:10 46浏览
  •   海上安全事件应急处置系统平台深度解析   一、平台概述   北京华盛恒辉海上安全事件应急处置系统平台融合现代信息技术、通信技术、GIS、大数据分析及 AI 等技术,旨在快速响应船舶碰撞、火灾、溢油等海上突发事件,实现科学决策与高效资源调配,保障海上生命财产安全、减少环境污染。   应用案例   目前,已有多个海上安全事件应急处置系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上安全事件应急处置系统。这些成功案例为海上安全事件应急处置系统的推广和应用提供了有力支持
    华盛恒辉l58ll334744 2025-04-21 15:21 49浏览
  •  霍尔效应自发现以来,已渗透至多个行业领域,其核心应用可归纳为以下几类:一、‌电子与半导体行业‌1、‌半导体器件开发与测试‌① 通过测量霍尔系数和电阻率,判断器件的导电类型(N型/P型)及载流子浓度分布,优化器件设计和制造工艺‌。② 监控晶圆掺杂水平和表面缺陷,提高集成电路良率‌。2、‌磁场传感器制造与校准‌测试霍尔传感器的灵敏度、线性度、响应时间等参数,确保其在汽车、工业控制等场景下的可靠性‌。3、‌电磁测量仪器‌基于霍尔电压与磁场强度的线性关系,开发高斯计、电流表、功率计等‌。二、
    锦正茂科技 2025-04-21 13:17 35浏览
  •   海上安全事件应急处置系统解析   北京华盛恒辉海上安全事件应急处置系统是为应对船舶碰撞、火灾等海上突发事件打造的综合管理体系,通过技术与协同机制,实现快速响应救援、优化资源配置,守护海上生命、财产与环境安全。以下从系统构成、功能、技术、应用及趋势展开阐述。   应用案例   目前,已有多个海上安全事件应急处置系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上安全事件应急处置系统。这些成功案例为海上安全事件应急处置系统的推广和应用提供了有力支持。   一、系统构成
    华盛恒辉l58ll334744 2025-04-21 15:50 45浏览
  • 导读在智能汽车技术发展浪潮中,车辆控制系统的智能化、网络化已成为行业发展的必然趋势。虹科PEAK智行定位车控系统,集成了尖端科技,能够实现车辆全方位监控与控制。从实时GPS定位到CAN/CAN FD信号处理,虹科方案不仅提升了车辆的智能化水平,更在安全性和效率上迈出了革命性的一步。虹科PEAK智行定位车控系统,通过CAN/CAN FD信号实现车辆的精准控制,包括加减速、转弯、倒退等动作,模拟真实车辆平台的动态表现。该系统搭载了虹科各型号设备,通过紧密协作,实时反映车辆位置、总线报文等信息,实现车
    虹科汽车智能互联 2025-04-21 16:04 39浏览
  • 一、‌基础原理验证与分析‌1、‌理解霍尔效应基本机制‌通过实验观察磁场中导体或半导体材料的电荷偏转现象,验证霍尔电压与磁场强度、电流方向的关系,直观认识洛伦兹力对载流子的作用‌。2、‌探索磁电效应关联性‌研究霍尔效应与材料电学特性(如载流子类型、浓度)的关联,揭示半导体材料的导电机制(如N型/P型半导体)。二、‌参数测量与标定‌1、‌关键物理量测量‌掌握霍尔元件灵敏度(KH)、霍尔系数(RH)、电导率(σ)及载流子迁移率(μ)的测量方法,为半导体材料性能评估提供数据支持。2、‌磁场强度与分布测定
    锦正茂科技 2025-04-21 13:03 27浏览
  • 精益生产咨询师证/精益管理专业人员证/精益生产工程师证虽然在名称上有一些差异,但其实实际区别并不大,目前类似的证书以ILSSI-CLMP较为得到国际上的认可,当然,你不会因为有一张精益生产咨询师证,而会有人马上请你做咨询师,因为除了知识之外,你还要有充足经验、热诚、沟通能力等等,这些也是我们招聘咨询师的基本要求。那么,有没有必要取得CLMP证书呢?这主要取决于你自己对职业发展的规划和自我提升的意志。CLMP是什么?CLMP的全称是Certified Lean Management Profess
    优思学院 2025-04-21 14:29 29浏览
  • 导读Linux驱动程序领域再添新成员,PLIN驱动程序现已正式发布。这一新驱动程序为使用LIN接口的用户提供了一个便捷、高效的解决方案。本文将展示如何安装PLIN驱动程序,以及如何在Linux环境下进行基本的PLIN通信操作,确保您能够快速掌握并应用这一新工具。继我们在Linux环境下成功推出CAN/CAN FD接口驱动程序后,现在我们为LIN接口带来了同样兼容Linux的驱动程序。免费软件包中不仅包含了驱动程序本身,还提供实用工具和一份易于理解的快速入门指南。用户下载后,需要根据当前使用的Li
    虹科汽车智能互联 2025-04-21 14:56 45浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦