随着人工智能应用在越来越多的行业中变得越来越流行,对更多计算资源、更多模型存储容量以及更低功耗的需求变得越来越重要。目前用于人工智能应用的数字处理器难以满足这些极具挑战性的要求,尤其是对于在边缘运行的大型机器学习模型。模拟计算提供了一种创新的解决方案,能够帮助人们以更低的功耗和更小的外形尺寸获得更高的性能,同时极具成本效益。
与数字计算相比,模拟计算的速度和功效值长期以来就一直很有前景。从历史上看,开发模拟系统存在许多障碍,包括模拟处理器的尺寸和成本。最近的方法表明,一种称为内存内模拟计算(CIM)的组合方法可以消除这些障碍,该方法将模拟计算与闪存等非易失性存储器(NVM)配对使用。
Tim Vehling(来源:Mythic)
与依赖消耗过多功率的高吞吐量DRAM的数字计算系统不同,模拟CIM系统可以利用令人难以置信的高密度闪存进行数据存储和计算。这样就消除了在数字计算系统中访问和维持DRAM中的数据所带来的高功耗。使用模拟CIM方法后的处理器能以快速和低功耗的方式操作和组合整个存储库中的小电流,从而在非易失性存储单元内完成算术运算。
因此,虽然数字处理系统在不断增加的深度学习工作负载和更高的功耗方面遇到困难,但模拟CIM系统可以执行实时处理,即使是多个大型、复杂的深度神经网络,其功耗也只是数字处理系统的一小部分。
通过在闪存阵列内执行大规模并行向量矩阵乘法和加法运算,可以获得显著的功耗优势。微小的电流通过存储神经网络权重的闪存阵列加以引导,矩阵乘法结果通过一系列模数转换器得以累积。通过利用模拟计算进行推理操作,可以消除DRAM访问和数字计算的功耗开销,从而实现人工智能推理处理总功耗的大幅下降。
还有许多二级系统级效应可以大幅降低功耗;例如,当使用模拟计算将功耗降低多达10倍时,因为不再需要主动冷却,热管理系统将得到极大的简化。
成本、延时优势
模拟计算系统还具有成本优势,因为带嵌入式非易失性存储器的处理器可以用成熟的半导体工艺节点制造。与所有产能都被少数公司占用的前沿节点相比,这些工艺节点通常成本更低,供应链的可用性更广。此外,模拟CIM方法可以使用单个闪存晶体管来同时存储神经网络权重和执行乘法与累加操作。这样用单颗芯片就能完成非常密集的神经网络权重存储和高性能人工智能处理,不再需要增加外部DRAM及相关组件的成本。
模拟CIM系统的另一个好处是它们的速度可以非常快,因为它们不受数据通过处理器中的数字逻辑门和内存传播以及读写外部DRAM的延迟的影响。可以在芯片上执行大规模并行矩阵运算,所需时间仅为数字处理系统的一小部分。这种速度使得模拟CIM系统成为计算密集型人工智能工作负载的理想选择,例如用于对象检测、分类、姿势估计、分割和深度估计的视频分析应用。
工业领域对更快的处理速度有着巨大的需求,其中运行计算机视觉应用的机器人主要用于提高生产力和安全性。无人机是模拟CIM系统驱动新型功能的另一个市场。传统意义上,为无人机配备高清摄像头、从而实现为需要在本地运行复杂的人工智能网络以便向控制站提供即时和相关信息的计算机视觉应用一直具有挑战性。使用模拟计算的处理器可以在本地处理这些工作负载,同时还非常节能,从而使无人机能够进行更长时间的飞行。
在这些功能的加持下,我们将看到越来越多的无人机用于农业监测、检查电力线等重要基础设施和检查火灾损失。
安全摄像机和监控解决方案也是模拟CIM处理器的理想应用。在旧系统中,摄像头捕捉人和物体的图像,并将视频流发送到中央视频处理系统——无论它是在设备端还是在云端——进行视觉分析;这正是隐私和数据安全问题突出的地方。更好的选择是让摄像头使用经过训练的人工智能算法来检测特定序列——事故、犯罪或其他事件,并且只发送分析的元数据,或者只发送潜在安全事件的素材用于分析。不管是交通监控、事故检测还是其他关键安全应用,视频安全系统能够在边缘处理大多数数据都有助于减轻隐私问题,同时仍然保护公共安全。
总而言之,模拟计算是人工智能处理可以采用的理想方法,因为它功耗更低,尺寸更小,同时延迟也更短。模拟计算技术的高功效可以帮助产品设计人员在未来几年解锁新的人工智能应用,甚至应用于小型边缘设备中。
(参考原文:Analog Compute is Key to The Next Era of AI Innovation )
本文为《电子工程专辑》2021年3月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订