大规模 CNN(卷积神经网络)是许多最先进的计算机视觉算法中最基本的部分,可在各种任务中实现高精度。这种网络的架构往往非常深,因为它们具有大量参数。所有的参数,数以百万计,数以亿计,权重冗余度高,使用巨大的计算资源。由于其对计算和硬件的高要求,在内存和计算资源有限的嵌入式和移动设备上部署此类模型变得非常困难。为了解决这个问题,已经进行了研究,以使用各种技术(如修剪、神经架构搜索、量化和知识蒸馏)来减小模型的大小。Learning to Prune Filters in CNNs论文并使用混合精度量化论文中的量化来减少模型大小和计算量。
...