机器学习和深度学习已成为我们生活中不可或缺的部分。利用自然语言处理(NLP)、图像分类和物体检测实现的人工智能(AI)应用已深度嵌入到我们使用的众多设备中。大多数AI应用通过云引擎即可出色地满足其用途,例如在Gmail中回复电子邮件时可以获得词汇预测。

虽然我们可以享受到这些AI应用带来的益处,但这种方法导致隐私、功耗、延时和成本等诸多因素面临挑战。如果有一个能够在数据来源处执行部分或全部计算(推断)的本地处理引擎,那么这些问题即可迎刃而解。传统数字神经网络的存储器功耗存在瓶颈,难以实现这一目标。为了解决这一问题,可以将多级存储器与模拟内存内计算方法结合使用,使处理引擎满足更低的毫瓦级(mW)到微瓦级(μW)功率要求,从而在网络边缘执行AI推断。

通过云引擎提供服务的AI应用面临的挑战

如果通过云引擎为AI应用提供服务,用户必须将一些数据以主动或被动方式上传到云,计算引擎在云中处理数据并提供预测,然后将预测结果发送给下游用户使用。下面概述了这一过程面临的挑战:

图1:从边缘到云的数据传输

  1. 隐私问题:对于始终在线始终感知的设备,个人数据和/或机密信息在上传期间或在数据中心的保存期限内存在遭受滥用的风险。
  2. 不必要的功耗:如果每个数据位都传输到云,则硬件、无线电、传输装置以及云中不必要的计算都会消耗电能。
  3. 小批量推断的延时:如果数据来源于边缘,有时至少需要一秒才能收到云系统的响应。当延时超过100毫秒时,人们便有明显感知,造成反响不佳的用户体验。
  4. 数据经济需要创造价值:传感器随处可见,价格低廉;但它们会产生大量数据。将每个数据位都上传到云进行处理并不划算。

要使用本地处理引擎解决这些挑战,必须首先针对目标用例利用指定数据集对执行推断运算的神经网络进行训练。这通常需要高性能计算(和存储器)资源以及浮点算数运算。因此,机器学习解决方案的训练部分仍需在公共或私有云(或本地GPU、CPU和FPGA Farm)上实现,同时结合数据集来生成最佳神经网络模型。神经网络模型的推断运算不需要反向传播,因此在该模型准备就绪之后,可利用小型计算引擎针对本地硬件进行深度优化。推断引擎通常需要大量乘-累加(MAC)引擎,随后是激活层(例如修正线性单元(ReLU)、Sigmoid函数或双曲正切函数,具体取决于神经网络模型复杂度)以及各层之间的池化层。

大多数神经网络模型需要大量MAC运算。例如,即使是相对较小的“1.0 MobileNet-224”模型,也有420万个参数(权重),执行一次推断需要多达5.69亿次的MAC运算。此类模型中的大多数都由MAC运算主导,因此这里的重点是机器学习计算的运算部分,同时还要寻找机会来创建更好的解决方案。下面的图2展示了一个简单的完全连接型两层网络。输入神经元(数据)通过第一层权重处理。第一层的输出神经元通过第二层权重处理,并提供预测(例如,模型能否在指定图像中找到猫脸)。这些神经网络模型使用“点积”运算计算每层中的每个神经元,如下面的公式所示:(为简单起见,公式中省略了“偏差”项)。

图2:完全连接的两层神经网络

在数字神经网络中,权重和输入数据存储在DRAM/SRAM中。权重和输入数据需要移至某个MAC引擎旁以进行推断。根据下图,采用这种方法后,大部分功耗都来源于获取模型参数以及将数据输入到实际发生MAC运算的ALU。从能量角度来看,使用数字逻辑门的典型MAC运算消耗约250 fJ的能量,但在数据传输期间消耗的能量超过计算本身两个数量级,达到50皮焦(pJ)到100 pJ的范围。公平地说,很多设计技巧可以最大程度减少存储器到ALU的数据传输,但整个数字方案仍受冯·诺依曼架构的限制。这就意味着,有大量的机会可以减少功率浪费。如果执行MAC运算的能耗可以从约100 pJ减少到若干分之几pJ,将会怎样呢?

消除存储器瓶颈同时降低功耗

如果存储器本身可用来消除之前的存储器瓶颈,则在边缘执行推断相关的运算就成为可行方案。使用内存内计算方法可以最大程度地减少必须移动的数据量。这反过来也会消除数据传输期间浪费的能源。闪存单元运行时产生的有功功率消耗较低,在待机模式下几乎不消耗能量,因此可以进一步降低能耗。

图3:机器学习计算中的存储器瓶颈

来源:Y.-H. Chen、J. Emer和V. Sze于2016国际计算机体系结构研讨会发表的“Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks”。

该方法的一个示例是Microchip子公司Silicon Storage Technology(SST)的memBrain™技术。该解决方案依托于SST的SuperFlash®存储器技术,这项技术已成为适用于单片机和智能卡应用的多级存储器的公认标准。这种解决方案内置一个内存内计算架构,允许在存储权重的位置完成计算。权重没有数据移动,只有输入数据需要从输入传感器(例如摄像头和麦克风)移动到存储器阵列中,因此消除了MAC计算中的存储器瓶颈。

这种存储器概念基于两大基本原理:(a)晶体管的模拟电流响应基于其阈值电压(Vt)和输入数据,(b)基尔霍夫电流定律,即在某个点交汇的多个导体网络中,电流的代数和为零。了解这种多级存储器架构中的基本非易失性存储器(NVM)位单元也十分重要。下图(图4)是两个ESF3(第3代嵌入式SuperFlash)位单元,带有共用的擦除门(EG)和源线(SL)。每个位单元有五个终端:控制门(CG)、工作线(WL)、擦除门(EG)、源线(SL)和位线(BL)。通过向EG施加高电压执行位单元的擦除操作。通过向WL、CG、BL和SL施加高/低电压偏置信号执行编程操作。通过向WL、CG、BL和SL施加低电压偏置信号执行读操作。

图4:SuperFlash ESF3单元

利用这种存储器架构,用户可以通过微调编程操作,以不同Vt电压对存储器位单元进行编程。存储器技术利用智能算法调整存储器单元的浮栅(FG)电压,以从输入电压获得特定的电流响应。根据最终应用的要求,可以在线性区域或阈下区域对单元进行编程。

图5说明了在存储器单元中存储多个电压的功能。例如,我们要在一个存储器单元中存储一个2位整数值。对于这种情况,我们需要使用4个2位整数值(00、01、10、11)中的一个对存储器阵列中的每个单元进行编程,此时,我们需要使用四个具有足够间隔的可能Vt值之一对每个单元进行编程。下面的四条IV曲线分别对应于四种可能的状态,单元的电流响应取决于向CG施加的电压。

图5:ESF3单元中的编程Vt电压

受训模型的权重通过编程设定为存储器单元的浮栅Vt。因此,受训模型每一层(例如完全连接的层)的所有权重都可以在类似矩阵的存储器阵列上编程,如图6所示。对于推断运算,数字输入(例如来自数字麦克风)首先利用数模转换器(DAC)转换为模拟信号,然后应用到存储器阵列。随后该阵列对指定输入向量并行执行数千次MAC运算,产生的输出随即进入相应神经元的激活阶段,随后利用模数转换器(ADC)将输出转换回数字信号。然后,这些数字信号在进入下一层之前进行池化处理。

图6:用于推断的权重矩阵存储器阵列

这类多级存储器架构模块化程度非常高,而且十分灵活。许多存储器片可以结合到一起,形成一个混合了权重矩阵和神经元的大型模型,如图7所示。在本例中,MxN片配置通过各片间的模拟和数字接口连接到一起。

图7:memBrain™的模块化结构

截至目前,我们主要讨论了该架构的芯片实施方案。提供软件开发套件(SDK)可帮助开发解决方案。除了芯片外,SDK还有助于推断引擎的开发。SDK流程与训练框架无关。用户可以在提供的所有框架(例如TensorFlow、PyTorch或其他框架)中根据需要使用浮点计算创建神经网络模型。创建模型后,SDK可帮助量化受训神经网络模型,并将其映射到存储器阵列。在该阵列中,可以利用来自传感器或计算机的输入向量执行向量矩阵乘法。

图8:memBrain™ SDK流程

多级存储器方法结合内存内计算功能的优点包括:

  1. 超低功耗:专为低功耗应用设计的技术。功耗方面的第一个优点是,这种解决方案采用内存内计算,因此在计算期间,从SRAM/DRAM传输数据和权重不会浪费能量。功耗方面的第二个优点是,闪存单元在阈下模式下以极低的电流运行,因此有功功率消耗非常低。第三个优点是待机模式下几乎没有能耗,原因是非易失性存储器单元不需要任何电力即可保存始终开启设备的数据。这种方法也非常适合对权重和输入数据的稀疏性加以利用。如果输入数据或权重为零,则存储器位单元不会激活。
  2. 减小封装尺寸:该技术采用分离栅(1.5T)单元架构,而数字实施方案中的SRAM单元基于6T架构。此外,与6T SRAM单元相比,这种单元是小得多。另外,一个单元即可存储完整的4位整数值,而不是像SRAM单元那样需要4*6 = 24个晶体管才能实现此目的,从本质上减少了片上占用空间。
  3. 降低开发成本:由于存储器性能瓶颈和冯·诺依曼架构的限制,很多专用设备(例如Nvidia的Jetsen或Google的TPU)趋向于通过缩小几何结构提高每瓦性能,但这种方法解决边缘计算难题的成本却很高。采用将模拟内存内计算与多级存储器相结合的方法,可以在闪存单元中完成片上计算,这样便可使用更大的几何尺寸,同时降低掩膜成本和缩短开发周期。

边缘计算应用的前景十分广阔。然而,需要首先解决功耗和成本方面的挑战,边缘计算才能得到发展。使用能够在闪存单元中执行片上计算的存储器方法可以消除主要障碍。这种方法利用经过生产验证的公认标准类型多级存储器技术解决方案,而这种方案已针对机器学习应用进行过优化。

作者简介

Vipin Tiwari在产品开发、产品营销、业务开发、技术许可、工程管理以及存储器设计方面拥有20多年的丰富经验。目前,Tiwari先生在Microchip的子公司Silicon Storage Technology, Inc.担任嵌入式存储器产品开发总监。

责编:Yvonne Geng

阅读全文,请先
您可能感兴趣
过去几十年来,全球能源消耗稳步增长,预计还会进一步增长。
光电探测器的性能因材料不同、结构不同、制备工艺及应用场景的不同而存在较大的差异。性能指标之间往往存在制约,如暗电流与输出电流、灵敏度与响应度、可靠性与灵敏度等需要权衡。对于性能表征也是如此,例如高响应度与高精度电流表征无法同时进行。
SiC的特定特性要求对MOSFET器件和栅极驱动电路进行仔细选择,以确保安全地满足应用需求,并尽可能提高效率。在本文中,我们将讨论为SiC MOSFET选择栅极驱动器时应考虑的标准。
由于在满足所有要求方面存在不同的权衡,因此很难采用一种适用于所有情况的电流检测方法。
宽禁带半导体(例如SiC和GaN)在可靠性、能效、功率密度和降低成本方面具有重要优势。
ITSA报告对当前的V2X应用进行了分析,并对两个关键的V2X部分进行了展望——使用5.9GHz频谱的直连V2X和使用4G LTE和5G蜂窝通信的网联V2X。此外,该报告还对未来在5.9GHz当前30MHz带宽限制之外的扩展进行了展望。
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
今天推荐的视频介绍了单片机(MCU)和数字信号控制器(DSC)之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch
1月7日,据韩媒 sisajournal-e 消息,三星计划 2025 年下半年推出三折叠手机,采用 G 形双内折设计,完全展开后尺寸为 12.4 英寸。据称,有别于华为的 S 形折叠屏方式(In&O
01周价格表02周价格观察硅料环节本周硅料价格:N型复投料主流成交价格为40元/KG,N型致密料的主流成交价格为38元/KG;N型颗粒硅主流成交价格为35元/KG。供给动态头部料企继续推进减产策略,月
近日,联想在CES 2025展会上展示了全球首款卷轴屏PC——ThinkBook Plus Gen 6。据悉,ThinkBook Plus Gen 6卷轴屏AI PC的核心魅力在于其独有的可卷曲显示屏
CES 2025,黑芝麻智能携旗下华山系列、武当系列芯片参展,并带来与产业链伙伴的合作新进展。1月8日,黑芝麻智能与汽车嵌入式互联软件产品和解决方案供应商Elektrobit联合发布了基于武当系列C1
点击蓝字 关注我们SUBSCRIBE to USImage: The Verge据悉,OpenAI已经制定了成为一家营利性公司的计划。在近日发布的一篇博客文章中,OpenAI的董事会表示,将把公司现有
随着Mini/Micro LED技术发展和小间距产品成熟,LED显示行业在更多细分场景下的高增长潜力正在加速释放。Mini LED背光市场自2021年进入起量元年后,年复合增长率达50%;Micro
    大联大控股宣布,其旗下世平推出基于安森美(onsemi)NCP5156x芯片的双通道隔离驱动IC评估板方案。    图
近日,由工业和信息化部、国家广播电视总局、国家知识产权局联合评选的“2024年度视听系统典型案例”公示名单正式发布。聚飞光电自主研发的大尺寸 Micro LED 超高清显示屏系统经专家评审及公示程序,
日前,奥康国际发布公告表示终止发行股份购买资产。根据公告,2024 年 12 月 24 日,奥康国际披露《关于筹划发行股份购买资产事项的停牌公告》,公司拟筹划以发行股份或支付现金的方式购买联和存储科技