卷积神经网络的FPGA加速

FPGA开发圈 2021-12-15 12:03

破解工业通信时延困局 实测解析：高精度电流传感在BMS与智能家居中的设计取舍

卷积神经网络（CNN）已被证明对复杂的图像识别问题非常有效。本白皮书讨论了如何使用BittWare公司的FPGA加速器产品对这些网络进行加速，使用英特尔OpenCL软件开发工具包进行编程。然后，本文介绍了如何通过降低计算精度来显著提高图像分类的性能。每降低一次精度，FPGA加速器就可以每秒处理越来越多的图像。

Caffe整合

Caffe是一个以表达、速度和模块化为宗旨的深度学习框架。它是由伯克利视觉和学习中心以及社区贡献者开发的。

Caffe框架使用一个XML接口来描述特定CNN所需的不同处理层。通过实现不同的层的组合，用户能够根据他们的要求快速创建一个新的网络拓扑结构。

这些层中最常用的是。

卷积。卷积层用一组可学习的过滤器对输入图像进行卷积，每个过滤器在输出图像中产生一个特征图。
池化。Max-pooling将输入图像划分为一组不重叠的矩形，对于每个子区域，输出最大值。
Rectified-Linear: Given an input value x, The ReLU layer computes the output as x if x > 0 and negative_slope * x if x <= 0.
InnerProduct/Fully Connected。图像被视为单一的矢量，每个点都对新的输出矢量的每个点有贡献。

通过将这4层移植到FPGA上，绝大多数的前向处理网络都可以使用Caffe框架在FPGA上实现。

图1：典型的CNN-卷积神经网络的实例说明

AlexNet是一个众所周知且使用广泛的网络，有免费的训练数据集和基准。本文讨论了针对AlexNet CNN的FPGA实现，然而这里使用的方法也同样适用于其他网络。

图2：AlexNet CNN - 卷积神经网络

图2说明了AlexNet CNN所需的不同网络层。其中有5个卷积层和3个全连接层。这些层占据了该网络99%以上的处理时间。不同的卷积层有3种不同的过滤器尺寸：11×11、5×5和3×3。为不同的卷积层创建不同的优化层将是低效的。这是因为每个层的计算时间取决于应用的过滤器的数量和输入图像的大小。由于处理的输入和输出特征的数量不同，每个层的计算时间也不同。然而，每个卷积需要不同数量的层和不同数量的像素来处理。通过增加应用于更多计算密集层的资源，可以平衡每一层在相同时间内完成。因此，有可能创建一个流水线进程，在任何时候都可以有几个图像在飞行，最大限度地提高所用逻辑的效率。也就是说，大多数处理元素在大多数时间内都很忙。

表1：ImageNet层的计算要求

表1显示了Imagenet网络的每一层所需的计算量。从该表可以看出，5×5卷积层比其他层需要更多的计算。因此，这一层需要更多的FPGA的处理逻辑，以便与其他层保持平衡。

内积层有一个n对n的映射，要求每次乘加都有一个唯一的系数。内积层通常需要的计算量比卷积层少得多，因此对逻辑的并行化要求较低。在这种情况下，将内积层移到主机CPU上是有意义的，让FPGA专注于卷积层。

FPGA逻辑区域

FPGA器件有两个处理区域，DSP和ALU逻辑。DSP逻辑是用于乘法或乘法加法运算的专用逻辑。这是因为使用ALU逻辑进行浮点大（18×18位）的乘法运算成本很高。鉴于DSP操作中乘法的普遍性，FPGA供应商为此提供了专用逻辑。英特尔更进一步，允许重新配置DSP逻辑以执行浮动指针操作。为了提高CNN处理的性能，有必要增加FPGA中实现的乘法数量。一种方法是降低位精度。

位精度

大多数CNN的实现都使用浮点精度进行不同层的计算。对于CPU或GPGPU的实现，这不是一个问题，因为浮点IP是芯片结构的一个固定部分。对于FPGA来说，逻辑元素是不固定的。英特尔的Arria 10和Stratix 10器件有嵌入式浮动DSP块，也可以作为定点乘法使用。每个DSP组件实际上可以作为两个分离的18×19位乘法使用。通过使用18位固定逻辑进行卷积，与单精度浮点相比，可用运算器的数量增加了一倍。