Nathan J:复睿微电子英国研发中心首席架构师,常驻英国剑桥。曾在ARM总部从事十多年的高性能CPU架构研究以及人工智能架构研究。
现如今,人工智能在诸多领域都取得了突破性进展,比如自动驾驶、计算机视觉、语音识别及翻译等。为了要解决越来越复杂的应用场景,模型的复杂度也伴随着提高,并伴随着模型参数海量提升。从下图中可以很容易看出,模型的参数最近几年呈现指数级增长。
大型 DNN 模型虽然非常强大,但会消耗大量的能量,因为模型必须存储在外部 DRAM,导致每次对模型中数据的存取都要访问DRAM。
神经网络巨大的计算量和访存量,对NPU的性能提出了更高的要求(能耗、延时、访存等)。一种可行的解决方案就是充分利用机器学习模型中的稀疏性。
所谓的稀疏性是指在计算中不必要,没用的计算。通过减少计算量,就可以保证降低不必要的存储和计算,提升机器学习模型部署时的性能。
下面通过一个简单的例子来简单介绍什么是稀疏性。卷积神经网络中由于模型的裁剪或者激活函数的操作导致weight和输入activation中通常包含大量的0值,如下图所示。这里的激活函数我们选择Relu,由于输出的特征图像的值有可能是正数,也可能是负数,负数经过Relu激活函数计算后会变为0,这就是网络稀疏性的来源之一。
这些0值其实是一些无效的数据,本不需要在网络中对其进行计算。如果我们不对这些无效数据做任何优化,NPU的硬件资源就会被浪费在处理一些无用的数据上,从而降低了NPU资源的利用率,而且会产生额外的功耗。如何对这些稀疏网络进行优化将是我们面临的一大挑战。
目前对网络的优化大概可以分为以下几类:
除了前面提到的结构性裁剪和非结构性裁剪稀疏性之外,还有一种细粒度的稀疏性:平衡性稀疏。
这种稀疏性在保持较高模型精度的同时,有效地实现了GPU加速。对于一个权值矩阵来说,每个矩阵的行平均分成多个大小相等的块,并且每个块具有相同数量的非零权值。如下图所示:
Nvidia的A100 GPU采用了类似于平衡性稀疏的方法,支持每个行上2:4的结构化稀疏性,即允许每4个输入向量中有两个非0值,它可以被有效地压缩并将内存存储和带宽减少近 2 倍。
另外一种稀疏算法是列组合稀疏,即将权重矩阵的列进行组合,在一组组合列中,只选择赋值最大的权重,其他都会被裁剪掉,如下图所示。这种稀疏算法可以使能效提升2倍,硬件使用率效率提升4倍。
稀疏算法的研究还在持续进行,但是不管采用何种稀疏算法,都需要有相应的NPU硬件架构与之配合,还需要结合软件编译器的优化才能使稀疏性的呈现完美的效果。
网络的稀疏性给NPU的设计带来了新的机遇和挑战:
参考文献:
【1】Liane B. Alexander S. and etc.“Freely scalable and reconfigurable optical hardware for deep learning”.
【2】Chuang-Bin W. Chung-Hsuan C. and etc.“Reconfigurable Deep Learning Accelerator Hardware Architecture Design for Sparse CNN”.
【3】Zhuliang Y. Shijie C. and etc.“ Balanced Sparsity for Efficient DNN Inference on GP”.
【4】H. T. Kung, Bradley M. and etc.“ Packing Sparse Convolutional Neural Networks for Efficient Systolic Array Implementations: Column Combining Under Joint Optimization”.
复睿微电子简介:复睿微电子是世界500强企业复星集团出资设立的先进技术型企业。复睿微电子根植于创新驱动的文化,通过技术创新改变人们的生活、工作、学习和娱乐方式。公司目标成为世界领先的智能出行时代的大算力方案提供商,致力于为汽车电子、人工智能、通用计算等领域提供以高性能芯片为基础的解决方案。
目前主要从事汽车智能座舱、ADS/ADAS芯片研发,以领先的芯片设计能力和人工智能算法,通过底层技术赋能,推动汽车产业的创新发展,提升人们的出行体验。在智能出⾏的时代,芯⽚是汽⻋的⼤脑。
复星智能出⾏集团已经构建了完善的智能出行生态,复睿微是整个⽣态的通⽤⼤算⼒和⼈⼯智能⼤算⼒的基础平台。复睿微电子以提升客户体验为使命,在后摩尔定律时代持续通过先进封装、先进制程和解决⽅案提升算⼒,与合作伙伴共同⾯对汽⻋智能化的新时代。