市场上有那么多AI芯片，还需要Arm的NPU吗？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

AI和IoT是这两年被人反复提及的话题热点，毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因，就在于它们尚未形成（或可能不会形成）非常统一的“生态”，迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。以边缘AI为例，仅是手机设备上用于推理（inference）的神经网络单元，时下大概也都处在多家争鸣的状态……

AI和IoT是这两年被人反复提及的话题热点，毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因，就在于它们尚未形成（或可能不会形成）非常统一的“生态”，迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。

以边缘AI为例，仅是手机设备上用于推理（inference）的神经网络单元，时下大概也都处在多家争鸣的状态：华为的NPU、联发科的APU、高通的异构AI引擎，乃至苹果的神经网络执行单元。这个在主SoC上常驻的运算单元，并不像CPU、GPU那样有着典型的标准和生态。

我们首先想到有能力带动边缘终端设备AI单元“标准化”的，应该就是Arm了。不过Arm的动作比我们预想的都稍慢一些，去年2月，Arm才宣布要推Project Trillium机器学习IP；去年5月给出了有关Project Trillium机器学习处理器架构的更多细节信息。到上个月底正式宣布推出其NPU IP产品Ethos-N57/N37（最高规格的N77理论上算是已推的产品）。

在珊珊来迟的情况下，Arm的生态能力是否能够持续在NPU上有所体现，是值得我们观察的。更有趣的是，Arm生态掌控开始出现松动的迹象还体现在IoT领域，尤其今年国内RISC-V呼声如此之高，而且IoT——尤其是IIoT本来就是个需求碎片化的市场，Arm的生态能力在此间又有多少价值？

在前不久于上海举办的Arm Tech Symposia 2019大会上，我们专访了Arm市场营销副总裁Ian Smythe，从中或可知Arm在这件事情上的态度。

Arm市场营销副总裁Ian Smythe

Arm的NPU能做什么？

除了NPU之外，Arm同期发布的还包括GPU IP：Mali-G57，这应该是Arm中端定位GPU中的首款Valhall架构产品；以及DPU Mali-D37。这里我们重点要谈的是Ethos系列NPU。

首先我们先了解一下Arm的Ethos家族NPU（包括了N77、N57、N37）究竟是怎么回事。去年Arm还将其称作“Arm Machine Learning processor”，今年的TechCon大会时，NPU这个名字就被钦定了（不知联发科、苹果和高通怎么看待这件事，华为：有什么问题吗？）。

这三款IP的性能预期如上图所示，其中最高配的N77在1GHz频率下可以达到4 TOPS算力，效率在5 TOP/W；可选配的片上SRAM为1-4MB。Ethos NPU的CE计算引擎，主要由MCE（MAC乘法累加计算引擎）、PLE（可编程层引擎）和SRAM三部分组成。

在N77、N57和N37几个IP上，CE模块数量会有差别（N77至多16个CE，N57至多8个，N37至多4个），主体以此来划分产品定位。在应用方向上，N37可应用于智能电视、安防摄像头，N57则可面向智能家居中枢，N77的市场在高端智能手机、computational photography，还有AR/VR等。

内部结构上，（1）支撑原生算力部分的，就是一系列的MAC引擎；（2）与此同时，提供某种程度的可编程控制流模块；（3）外加存储子系统。所以Arm的机器学习IP着力点主要在三方面：卷积计算的效率、足够的可编程性，以及高效的数据移动。从这个层面来看，Ethos和市场上不少现有的神经网络加速IP是类似的。

Ethos NPU内部包含一些通用功能模块，如存储互联接口、DMA引擎。上面这张图的绿色箭头表示的是数据流，红色则为控制流。SRAM是CE（计算引擎）执行计算操作的本地通用buffer。每个CE都有一些固定功能模块，在神经网络模型上的多个层级执行操作，比如Input feature map read模块要将控制信息传递给权重decoder。在此，卷积操作的核心是128-wide的MAC单元，针对存储了神经网络模型的量化权重（quantized weights）8bit、16bit整数数据执行操作。

在选择AI处理器的方向时，Arm很显然是偏向通用的思路的（也是Arm的唯一选择，而有一类AI芯片制造商选择了相对专用的思路），毕竟我们谁也不知道未来会有什么样的模型架构出现——所以具备针对未来应用的架构弹性，是现阶段很多AI芯片制造商考虑的关键。前文就提到的PLE可编程层引擎，就是一个带有矢量与神经网络特定指令的专用处理单元，这里的神经网络“特定指令”，能够以相比固定功能模块，更具弹性和可编程性的方式，应用于其他层级的操作。

就Arm市场宣传的NPU特色来看，Ethos的一大亮点在于数据集/特征图部分数据的压缩能力。Arm采用一种无损压缩算法，宣称达到最高3倍的压缩比，这样就能减少外部DRAM带宽压力，对于整个系统性能都有积极价值。

针对神经网络模型的训练和优化，实际更能提升存储带宽相关的性能表现。Arm的软件工具针对更大的压缩比，以及去相关连接（prune，如上图），进行数据优化，最终可以减轻MAC引擎的运算需求，提升能效比。

不过其实我们并不能从Arm提供的这些信息来判断，Ethos NPU相比市面上已经存在的各家神经网络处理单元是否有优势——包括宣传中提到的Winograd技术，其实都属于常规操作。从时间上来看，华为、苹果的同类单元部署，乃至生态的搭建都已经有一段时间了。

而Arm在机器学习方面相对知名的方案，是在Mali GPU中加强机器学习性能，比如今年年中Valhall架构发布之际，宣传其机器学习性能提升60%。在AI专核领域，Arm仍是个后来者，在这个已经逐渐碎片的市场上，Arm是如何打算的？

“需要更加一致的软硬件API”

在大部分人看来，Arm的优势就在“生态”构建能力上，毕竟其移动、IoT等市场的份额无论如何都是不容小觑的。能够直观体现这种能力的是Arm在开发软件生态上的搭建。Ian Smythe说：“Arm NN框架，是一个开源的架构，可加速机器学习部署的框架。在这个框架体系下，我们可以帮助开发者更简单、快速地获得硬件的全部性能，完成解决方案的部署。”

“我们的一大优势，就是非常完整的、在全球范围内部署的软件生态系统。这是Arm非常重要的一个基石所在。正是基于软件生态系统，我们才能在数十年内拥有这么多的合作伙伴，有这么紧密的合作。”

Arm NN的价值在于隐藏底层硬件的复杂性，另外让开发者可使用他们熟悉的高层神经网络框架（如TensorFlow）。在面向硬件时，可以融合各种IP，包括调动NPU这样的专核（也可以是第三方的IP，按照Ian Smythe所说，这类实例已经非常巨量），并以NN优化算法同时调动CPU、GPU。这在我们看来，可能会成为Arm在机器学习IP方面的一个优势项。

Ian Smythe告诉我们：“具体的应用场景中有很多不同的工作负载，某些负载CPU擅长，有些GPU处理起来更高效，而相对复杂的AI工作，NPU用起来就更有效率：比如图像识别。不过我们在此需要考虑一个重要因素，在工作负载从CPU offload（转往其他处理单元）时，这中间本身消耗的成本有多高是需要考虑的。”

“比如比较简单的短关键词识别，这种场景并不需要AI核心来处理，Cortex核心就能完成这些工作；但是图像识别这样的任务，启用AI核心才能更好地识别图像内容。”

“这两个例子都是相对简单的情况，而很多时候并不是这么容易的，我们需要在中间点做各种考量。我们需要解决的是，找到一个平衡点，来进行调用和计算。所以Arm有专门的分析系统和解决工具，我们有更好的开发工具链体系，满足这样的需求。比如，Arm有专门的单元库，让上层同时加载GPU和NPU计算资源。”

Arm NN在首发时宣传的一个亮点就是Compute Library包含一系列低级别机器学习和计算机视觉函数，面向Cortex-A CPU和Mali GPU（那时NPU还没有发布）。这个Compute Library的目标就是汇集针对这些函数的优化：这些当然是对开发者隐藏的。现在新版本的Arm NN必然是加入了NPU抽象考量的。

不过实际在芯片制造商打造自己的AI专核或解决方案时，相应的开发框架也在不停涌现，典型如高通的SNPE，联发科的NeuroPilot等，这也是目前这一市场还处在发展前期的表现。高通SNPE和华为的HiAI也是典型调用异构单元做加速处理的框架。

在面向Android NNAPI时，NNAPI提供一个硬件抽象层，面向不同类型的处理器；Arm NN for Android在此是为Mali GPU提供硬件抽象层，未来的版本会支持Arm机器学习处理器

或许这个时候就是考验生态搭建能力，以及对微架构和软件理解能力的时候了。Arm与前面提到的这几家厂商的差别，在整个生态链所处的位置是不同的。这大概就能够成为Arm的优势。

“第三方应用要访问CPU以外的资源，这件事是存在挑战的。第三方开发者需要思考，我怎么用API，如何访问AI加速资源：这些资源可以为我的app所用吗？我用的游戏引擎支持吗？这很难。第三方开发者必定希望他们上市的软件版本越少越好，不需要针对不同处理器、芯片编译更多不同的程序，减少开发时间。”Ian Smythe表示。

“机器学习市场现在还在发展的初级阶段，市场上存在很多不同的AI实施方案，但这种分化局面不会持续多久。未来的市场一定会更加趋于统一，虽然这个过程需要多久我不清楚。但我们需要更加一致的软硬件API，来提供AI性能，我觉得这对未来市场的发展是非常重要的。”

针对上述问题，Ian Smythe还特别举了个例子：“去年年底，Facebook做一项研究，还出了白皮书，是针对市场上不同的芯片架构，对Facebook的app做优化。研究最终结论是，应该为Cortex-A53做优化，因为这是现在市场上使用最广泛的架构。这是来自第三方的观点。”

“第一方市场出现分化当然没什么，但你不能因此要求第三方也去分化。大家需要合作。写完代码就在所有的手机上跑起来，这是我们的目标，也是我们的优势所在。从CPU、GPU、NPU做部署，我们要让整个过程变得简单、便捷。”

生态的价值可以有多大？

到这里，Arm的态度已经十分明确了，即便在AI芯片市场，Arm算是个后来者，依然能够利用生态的优势来开辟局面。生态的力量在此可能仍然是强大的。

最后值得一提的是，很多人说IoT市场需求和应用碎片化，Arm的生态优势已经没有价值。RISC-V因此对Arm造成巨大威胁。Ian Smythe则表示，“这类型的竞争我们经历过很多。”“一方面，Arm有自己的ISG业务（物联网服务集团），有端到云的服务，我们有能力去理解边缘设备如何进行管理、控制和实施，包括做各种相关IoT边缘的内部分析——这都是Arm生态系统的组成部分，贯穿整个生态为你提供支持。”

Arm的Pelion IoT平台，是去年Q3 Arm发布设备到数据IoT平台；这个平台产品涵盖了Arm早前收购具备连接管理能力的Stream和云数据管理平台的Treasure Data

“如果你想选择现成的芯片，我们生态中的的选择非常多样化，哪怕只是一些微小的需求差异，都能找到对应选择。如果你考虑自己做芯片，RISC-V的确取得了很大的关注，但一旦涉及到SoC设计，它和Arm需要面临的挑战是一样的，都很难，从RISC-V IP供应商进行授权可能也需要花钱。”

“Arm的生态系统在不断成长中的，我们有大量可选的CPU产品；我们有完整的工具链和生态；我们和EDA供应商有着很好的合作关系，做验证测试也会更便捷。就只说我们的自定义指令集支持，我们依然要确保其一致性、完整性，这是我们必须做到的。但RISC-V一方是无法保证这些的。”

“生态的价值，在于你可以做出选择（The power of ecosystem there is that the choices is available）。”

参考来源：
[1]Arm NN - Arm Developer（https://developer.arm.com/ip-products/processors/machine-learning/arm-nn）
[2]ARM Details "Project Trillium" Machine Learning Processor Architecture - AnandTech（https://www.anandtech.com/show/12791/arm-details-project-trillium-mlp-architecture）

责编：Luffy Liu

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

人工智能 EDA/IP/IC设计物联网处理器/DSP 业界新闻

市场上有那么多AI芯片，还需要Arm的NPU吗？

Arm的NPU能做什么？

“需要更加一致的软硬件API”

生态的价值可以有多大？

杂志声明