2020年将是转型的重要一年,许多可望改变人类生活的科技与产品都即将成为现实,并开始带来影响。2020年,将看到5G技术的部署,这将为工业4.0、自驾车,边缘人工智能(edge AI),以及各种要求更高速度与带宽的新产品和服务奠定基础。
业界正持续开发各种创新的半导体解决方案,以实现完全互连的未来。其中一项重要创新是,使边缘设备的AI推理成为切实可行,且可扩展的商机。然而挑战在于,AI推理需要强大的处理能力,且其功耗往往是边缘设备无法承担的。矩阵乘法(matrix multiplication)是AI处理的核心,它的第一个层级是先从包含数百万个操作数(即权重)的运算开始,并且随着运算的进行,矩阵会变小。每次运算都需要重复多次的向量点积运算:从内存中读取两个操作数,把操作数相乘,并累加结果。整个过程会需要较高的功耗,因而也使成本增加。
Gideon Intrater,Adesto Technologies技术长
今天,人们正利用各种方案来解决此问题。一种方式是,利用可从多家供货商取得的现成微控制器(MCU),在某些情况下,这是一项不错的选择。透过把权重储存在快速的外部内存中,通常是8进位闪存,例如Adesto的EcoXiP非挥发性内存(NVM),因此能够非常快速地取得它们。在此传统的运算模型中,数据需透过单一的总线传输,而典型的解决方案最高可达到每瓦0.1TeraOp。但对于难度更高的推论算法,则需要采用专用硬件。
的确,目前市场上已有多家供货商提供了许多不错的SoC,其中有专用的AI加速硬件。结合先进工艺节点,以及专用硬件,可使这些设计达到不错的效率。但是,这样的设计仍需要从外部内存取得权重,由于把权重带进SoC的过程会消耗功率,此问题还是存在的。
展望未来,算法的复杂性将持续成长,这将使边缘设备的AI推理硬件到达极限。为了解决这个问题,数字推论架构正在演进,现已超越了采用具专用推论引擎的MCU和SoC,朝利用深次微米工艺和近内存(near-memory)处理等新架构发展。
透过把内存和AI硬件加速器整合在相同的晶粒上,近内存处理能以更低的功耗,实现更高的效能。目前,市场上已有商业化的解决方案,宣称效能可达到每瓦9.6TeraOps。这是透过内存和执行单元之间的较高带宽所实现,同时也因为不需要到芯片外部去取得权重。但是,权重的数量会受到硅晶组件中可建置的数量限制,因此效率和可扩展性无法完全兼顾。此外,为了限制功耗,需采用先进工艺,但在先进工艺节点中,具面积与功率效率的非挥发性内存单元并不存在,需采用昂贵的SRAM数组。
进一步的创新是有必要的,透过内存内(in-memory)的模拟处理(运算资源和内存位于同一位置),我们看到了未来AI边缘推论引擎的光明前景。在此典范中,深度神经网络(DNN)矩阵成为非挥发性内存单元数组,而矩阵的权重成为非挥发性内存单元的电导(conductance)。透过输入电压与非挥发性内存单元电导的模拟相乘来完成乘法运算。这些运算在所有向量元素上所产生的电流,以模拟方式相加,以产生MAC结果。由于不需要移动权重,因此该模型可以实现功率效率和可扩展性的绝佳组合。业界预估,此解决方案的小能可达到OI每瓦28TeraOps。
内存内模拟处理当然会面临挑战,而且不会在2020年实现这项技术。但是,我们相信,今年业界将会在此领域取得进展。模拟解决方案正在迎头赶上,利用单一晶体管储存和原地(in-place)运算,可免除昂贵的硬件乘法器。当我们迈向完全互连的未来时,结合模拟和数字运算,可能是因应边缘设备AI推理挑战的唯一方法。