自动驾驶、无人机、智能音箱,以及智能监控等等,越来越多的应用引入了人工智能(AI),人工智能将会成为未来十年最具突破性创新的技术类别。这将促使构建人工智能的工具:深度学习,机器学习和神经网络等技术迎来发展高潮。
虽然人工智能时代一定会来临,但就目前来说,实现人工智能还有不少问题需要突破,比如功耗、带宽、性能、可靠性、安全,以及延迟等等。
目前人工智能的很多计算能力都部署在云端,未来一部分的计算能力会往设备端转移。这是因为依赖云端的人工智能往往需要较高带宽的支持,还需要较低的延迟。而在设备端部署人工智能计算能力则可以规避这些问题,同时还可以实现更高的安全性、更低的功耗和更高的可靠性。
走在前面的苹果已经在其A11 Bionic仿生处理器中加入了全新的神经网络引擎;华为海思的麒麟970也内置了专为深度学习而定制的神经网络单元(NPU);Intel旗下的子公司Movidius甚至还推出了一款采用USB外形的独立式人工智能加速器,它可以简单地插入Raspberry Pi或者X86电脑,让大学研究人员、独立软件开发人员,以及人工智能爱好者简单方便地为嵌入式系统进行编译、调整,以及加速深度学习应用。
图1:Imagination PowerVR 产品与技术营销资深总监 Chris Longstaff。
Imagination PowerVR 产品与技术营销资深总监 Chris Longstaff就指出,未来神经网络加速器将成为SoC的标准IP模块,就像CPU、GPU和视频编解码器一样,因为人工智能需要更高性能的硬件支持。
神经网络在语音、视觉、搜寻、机器人、自动驾驶,以及医疗保健等领域取得了重大进展,但很多应用还是受到了当前设备硬件性能的限制。要想打造更强大的神经网络,就需要更加运算性能更好的硬件支持,以形成大量的机器学习模型。
为此,Imagination在沉寂了一段时间后,带来了其完整,独立式的硬件IP------PowerVR 2NX NNA神经网络加速器。据Chris Longstaff介绍,PowerVR 2NX NNA是专为神经网络算法所设计,与单纯的DSP解决方案相比,它可提供8倍的性能密度提升,能够以最低的功耗和成本达到最高的性能。
Chris Longstaff拿无人机防撞举例说,如果没有硬件支持,无人机的飞行速度为67米/秒时的防碰撞距离通常需要10~15米。而如果采用了Power VR硬件NNA,则可以实现在不到1米的距离内避开障碍物,并且可以运行多个网络,在避开碰撞的同时识别和跟踪物体。
此外,他还以从手机照片库中寻找所需要的照片为例。Chris Longstaff表示,如果利用高端GPU或者CPU来从1000张照片中选出自己想要的照片大概需要60秒的时间,而如果使用了他们最新的硬件加速器的话,只需要2秒钟。如果以消耗1%电量来衡量的话,使用高端GPU可实现2400张照片排序和1分20秒的的视频分析;而使用了他们硬件加速器后,则可实现428000张照片排序和237分钟的视频分析。
对于为何会如此高效,Chris Longstaff的解释是,PowerVR 2NX NNA是从头开始全新设计的架构,它不同于CPU,GPU架构,而是专门针对神经网络而设计的。它是一个可扩展的架构,16位支持从128到1024MAC/clock,8位支持256到2048MAC/clock;而且还支持不同位长的数据类型,可支持16、12、10、8、7、6、5、4位,这是因为一些汽车应用需要16位支持,而另一些市场需要发挥较低精度的优势。此外,它为数据和权重提供可调精度,能以最小功率和带宽实现最大性能。
图2:PowerVR 2NX NNA架构和特性。
图3:PowerVR 2NX NNA可调精度实例。
图4:可调精度的优势。
从图4中可以看到在位宽调整后,如8位调整到4位,推理吞吐量提升了60%,带宽下降了几乎一半,所需功耗也降低很多,但是精度下降不到1%。
一直以来,神经网络是非常耗费带宽的,因此,内存的带宽需求随着神经网络模型规模的增长不断在增加。这给SoC设计人员和OEM公司带来了很大的设计挑战。Chris Longstaff 自豪地宣称,PowerVR 2NX能最小化外部DDR内存的带宽需求,确保系统的性能不会受到带宽的限制。
说了那么多,那PowerVR 2NX的性能表现如何呢?Chris Longstaff表示,根据目前市面上的公开信息以及Imagination的工程团队的测试,PowerVR 2NX解决方案与最接近的竞争方案相比,可提供两倍的性能,而仅需一半带宽。
图5:PowerVR 2NX与其他解决方案性能对比。
他同时强调,PowerVR 2NX对制造工艺并没有特殊要求,PowerVR 2NX方案所测试的数据是基于目前市面上主流的16nm工艺制造的PowerVR 2NX硬件得到的。
图6:PowerVR 2NX与海思麒麟970和苹果A11在图片检索和图片排序方面的性能对比。
Chris Longstaff还特意提到了PowerVR 2NX与海思麒麟970和苹果A11在图片检索和图片排序方面的性能对比。根据海思给出的数据,麒麟970的图片检索能力是2000张/分钟,消耗1%的电量可以对5000张图片进行排序。
Imagination 给出的数据显示,其PowerVR 7XTP GPU的图片检索能力就已经达到了1800张/分钟,消耗1%电量可对2400张图片进行排序。而PowerVR 2NX NNA的性能得到了大幅提升,它可以在1分钟内检索30000张图片,消耗1%的电量,则可对438000张图片进行排序。
与苹果A11的神经网络引擎相比,PowerVR 2NX NNA支持4万亿次操作/秒,性能可达苹果A11神经网络引擎的6.7倍左右。
Chris Longstaff特别强调,PowerVR 2NX是专为移动和Android而设计的。它包括硬件IP、软件和工具,可为SoC提供完整的神经网络解决方案,能有效地执行所有常见的神经网络运算层。而且,依据推理任务的运算需求,它能无须额外硬件而独立使用,也能与CPU和GPU等其它的处理器结合运用。
此外,Imagination也更新了其PowerVR GPU产品线,推出了PowerVR Series9XE和 9XM GPU,据介绍,两个新系列产品均获益于内存子系统的提升,与前代产品相比,带宽减少25%,可确保更高的处理能力能被充分发挥。9XE 和9XM 的共同新特性包括新的MMU,能支持更大的寻址,并且提供10位YUV的标准支持,完全不会影响芯片面积。