AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态……

AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。

以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态:华为的NPU、联发科的APU、高通的异构AI引擎,乃至苹果的神经网络执行单元。这个在主SoC上常驻的运算单元,并不像CPU、GPU那样有着典型的标准和生态。

我们首先想到有能力带动边缘终端设备AI单元“标准化”的,应该就是Arm了。不过Arm的动作比我们预想的都稍慢一些,去年2月,Arm才宣布要推Project Trillium机器学习IP;去年5月给出了有关Project Trillium机器学习处理器架构的更多细节信息。到上个月底正式宣布推出其NPU IP产品Ethos-N57/N37(最高规格的N77理论上算是已推的产品)。

在珊珊来迟的情况下,Arm的生态能力是否能够持续在NPU上有所体现,是值得我们观察的。更有趣的是,Arm生态掌控开始出现松动的迹象还体现在IoT领域,尤其今年国内RISC-V呼声如此之高,而且IoT——尤其是IIoT本来就是个需求碎片化的市场,Arm的生态能力在此间又有多少价值?

在前不久于上海举办的Arm Tech Symposia 2019大会上,我们专访了Arm市场营销副总裁Ian Smythe,从中或可知Arm在这件事情上的态度。

20191104-arm-1.jpg

Arm市场营销副总裁Ian Smythe

Arm的NPU能做什么?

除了NPU之外,Arm同期发布的还包括GPU IP:Mali-G57,这应该是Arm中端定位GPU中的首款Valhall架构产品;以及DPU Mali-D37。这里我们重点要谈的是Ethos系列NPU。

首先我们先了解一下Arm的Ethos家族NPU(包括了N77、N57、N37)究竟是怎么回事。去年Arm还将其称作“Arm Machine Learning processor”,今年的TechCon大会时,NPU这个名字就被钦定了(不知联发科、苹果和高通怎么看待这件事,华为:有什么问题吗?)。

20191104-arm-2.jpg

这三款IP的性能预期如上图所示,其中最高配的N77在1GHz频率下可以达到4 TOPS算力,效率在5 TOP/W;可选配的片上SRAM为1-4MB。Ethos NPU的CE计算引擎,主要由MCE(MAC乘法累加计算引擎)、PLE(可编程层引擎)和SRAM三部分组成。

在N77、N57和N37几个IP上,CE模块数量会有差别(N77至多16个CE,N57至多8个,N37至多4个),主体以此来划分产品定位。在应用方向上,N37可应用于智能电视、安防摄像头,N57则可面向智能家居中枢 ,N77的市场在高端智能手机、computational photography,还有AR/VR等。

内部结构上,(1)支撑原生算力部分的,就是一系列的MAC引擎;(2)与此同时,提供某种程度的可编程控制流模块;(3)外加存储子系统。所以Arm的机器学习IP着力点主要在三方面:卷积计算的效率、足够的可编程性,以及高效的数据移动。从这个层面来看,Ethos和市场上不少现有的神经网络加速IP是类似的。

20191104-arm-3.jpg

Ethos NPU内部包含一些通用功能模块,如存储互联接口、DMA引擎。上面这张图的绿色箭头表示的是数据流,红色则为控制流。SRAM是CE(计算引擎)执行计算操作的本地通用buffer。每个CE都有一些固定功能模块,在神经网络模型上的多个层级执行操作,比如Input feature map read模块要将控制信息传递给权重decoder。在此,卷积操作的核心是128-wide的MAC单元,针对存储了神经网络模型的量化权重(quantized weights)8bit、16bit整数数据执行操作。

20191104-arm-4.jpg

在选择AI处理器的方向时,Arm很显然是偏向通用的思路的(也是Arm的唯一选择,而有一类AI芯片制造商选择了相对专用的思路),毕竟我们谁也不知道未来会有什么样的模型架构出现——所以具备针对未来应用的架构弹性,是现阶段很多AI芯片制造商考虑的关键。前文就提到的PLE可编程层引擎,就是一个带有矢量与神经网络特定指令的专用处理单元,这里的神经网络“特定指令”,能够以相比固定功能模块,更具弹性和可编程性的方式,应用于其他层级的操作。

就Arm市场宣传的NPU特色来看,Ethos的一大亮点在于数据集/特征图部分数据的压缩能力。Arm采用一种无损压缩算法,宣称达到最高3倍的压缩比,这样就能减少外部DRAM带宽压力,对于整个系统性能都有积极价值。

20191104-arm-5.jpg

针对神经网络模型的训练和优化,实际更能提升存储带宽相关的性能表现。Arm的软件工具针对更大的压缩比,以及去相关连接(prune,如上图),进行数据优化,最终可以减轻MAC引擎的运算需求,提升能效比。

不过其实我们并不能从Arm提供的这些信息来判断,Ethos NPU相比市面上已经存在的各家神经网络处理单元是否有优势——包括宣传中提到的Winograd技术,其实都属于常规操作。从时间上来看,华为、苹果的同类单元部署,乃至生态的搭建都已经有一段时间了。

而Arm在机器学习方面相对知名的方案,是在Mali GPU中加强机器学习性能,比如今年年中Valhall架构发布之际,宣传其机器学习性能提升60%。在AI专核领域,Arm仍是个后来者,在这个已经逐渐碎片的市场上,Arm是如何打算的?

“需要更加一致的软硬件API”

在大部分人看来,Arm的优势就在“生态”构建能力上,毕竟其移动、IoT等市场的份额无论如何都是不容小觑的。能够直观体现这种能力的是Arm在开发软件生态上的搭建。Ian Smythe说:“Arm NN框架,是一个开源的架构,可加速机器学习部署的框架。在这个框架体系下,我们可以帮助开发者更简单、快速地获得硬件的全部性能,完成解决方案的部署。”

“我们的一大优势,就是非常完整的、在全球范围内部署的软件生态系统。这是Arm非常重要的一个基石所在。正是基于软件生态系统,我们才能在数十年内拥有这么多的合作伙伴,有这么紧密的合作。”

20191104-arm-6.jpg

Arm NN的价值在于隐藏底层硬件的复杂性,另外让开发者可使用他们熟悉的高层神经网络框架(如TensorFlow)。在面向硬件时,可以融合各种IP,包括调动NPU这样的专核(也可以是第三方的IP,按照Ian Smythe所说,这类实例已经非常巨量),并以NN优化算法同时调动CPU、GPU。这在我们看来,可能会成为Arm在机器学习IP方面的一个优势项。

Ian Smythe告诉我们:“具体的应用场景中有很多不同的工作负载,某些负载CPU擅长,有些GPU处理起来更高效,而相对复杂的AI工作,NPU用起来就更有效率:比如图像识别。不过我们在此需要考虑一个重要因素,在工作负载从CPU offload(转往其他处理单元)时,这中间本身消耗的成本有多高是需要考虑的。”

“比如比较简单的短关键词识别,这种场景并不需要AI核心来处理,Cortex核心就能完成这些工作;但是图像识别这样的任务,启用AI核心才能更好地识别图像内容。”

“这两个例子都是相对简单的情况,而很多时候并不是这么容易的,我们需要在中间点做各种考量。我们需要解决的是,找到一个平衡点,来进行调用和计算。所以Arm有专门的分析系统和解决工具,我们有更好的开发工具链体系,满足这样的需求。比如,Arm有专门的单元库,让上层同时加载GPU和NPU计算资源。”

Arm NN在首发时宣传的一个亮点就是Compute Library包含一系列低级别机器学习和计算机视觉函数,面向Cortex-A CPU和Mali GPU(那时NPU还没有发布)。这个Compute Library的目标就是汇集针对这些函数的优化:这些当然是对开发者隐藏的。现在新版本的Arm NN必然是加入了NPU抽象考量的。

不过实际在芯片制造商打造自己的AI专核或解决方案时,相应的开发框架也在不停涌现,典型如高通的SNPE,联发科的NeuroPilot等,这也是目前这一市场还处在发展前期的表现。高通SNPE和华为的HiAI也是典型调用异构单元做加速处理的框架。

20191104-arm-7.jpg

在面向Android NNAPI时,NNAPI提供一个硬件抽象层,面向不同类型的处理器;Arm NN for Android在此是为Mali GPU提供硬件抽象层,未来的版本会支持Arm机器学习处理器

或许这个时候就是考验生态搭建能力,以及对微架构和软件理解能力的时候了。Arm与前面提到的这几家厂商的差别,在整个生态链所处的位置是不同的。这大概就能够成为Arm的优势。

“第三方应用要访问CPU以外的资源,这件事是存在挑战的。第三方开发者需要思考,我怎么用API,如何访问AI加速资源:这些资源可以为我的app所用吗?我用的游戏引擎支持吗?这很难。第三方开发者必定希望他们上市的软件版本越少越好,不需要针对不同处理器、芯片编译更多不同的程序,减少开发时间。”Ian Smythe表示。

“机器学习市场现在还在发展的初级阶段,市场上存在很多不同的AI实施方案,但这种分化局面不会持续多久。未来的市场一定会更加趋于统一,虽然这个过程需要多久我不清楚。但我们需要更加一致的软硬件API,来提供AI性能,我觉得这对未来市场的发展是非常重要的。”

针对上述问题,Ian Smythe还特别举了个例子:“去年年底,Facebook做一项研究,还出了白皮书,是针对市场上不同的芯片架构,对Facebook的app做优化。研究最终结论是,应该为Cortex-A53做优化,因为这是现在市场上使用最广泛的架构。这是来自第三方的观点。”

“第一方市场出现分化当然没什么,但你不能因此要求第三方也去分化。大家需要合作。写完代码就在所有的手机上跑起来,这是我们的目标,也是我们的优势所在。从CPU、GPU、NPU做部署,我们要让整个过程变得简单、便捷。”

生态的价值可以有多大?

到这里,Arm的态度已经十分明确了,即便在AI芯片市场,Arm算是个后来者,依然能够利用生态的优势来开辟局面。生态的力量在此可能仍然是强大的。

最后值得一提的是,很多人说IoT市场需求和应用碎片化,Arm的生态优势已经没有价值。RISC-V因此对Arm造成巨大威胁。Ian Smythe则表示,“这类型的竞争我们经历过很多。”“一方面,Arm有自己的ISG业务(物联网服务集团),有端到云的服务,我们有能力去理解边缘设备如何进行管理、控制和实施,包括做各种相关IoT边缘的内部分析——这都是Arm生态系统的组成部分,贯穿整个生态为你提供支持。”

20191104-arm-8.jpg

Arm的Pelion IoT平台,是去年Q3 Arm发布设备到数据IoT平台;这个平台产品涵盖了Arm早前收购具备连接管理能力的Stream和云数据管理平台的Treasure Data

“如果你想选择现成的芯片,我们生态中的的选择非常多样化,哪怕只是一些微小的需求差异,都能找到对应选择。如果你考虑自己做芯片,RISC-V的确取得了很大的关注,但一旦涉及到SoC设计,它和Arm需要面临的挑战是一样的,都很难,从RISC-V IP供应商进行授权可能也需要花钱。”

“Arm的生态系统在不断成长中的,我们有大量可选的CPU产品;我们有完整的工具链和生态;我们和EDA供应商有着很好的合作关系,做验证测试也会更便捷。就只说我们的自定义指令集支持,我们依然要确保其一致性、完整性,这是我们必须做到的。但RISC-V一方是无法保证这些的。”

“生态的价值,在于你可以做出选择(The power of ecosystem there is that the choices is available)。”

参考来源:
[1]Arm NN - Arm Developer(https://developer.arm.com/ip-products/processors/machine-learning/arm-nn)
[2]ARM Details "Project Trillium" Machine Learning Processor Architecture - AnandTech(https://www.anandtech.com/show/12791/arm-details-project-trillium-mlp-architecture)

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范,推动全球养老机器人产业的健康发展,通过明确养老机器人的功能与性能分类,确保其在互联家居环境中的有效应用。
2月以来,一些人形机器人头部企业高薪案例值得关注。其中,宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位,月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元,年薪超百万(15薪制)。
除了医疗诊断之外,DeepSeek利用其强大的计算能力和数据分析能力,还可以加速药物研发过程。
该报告认为,韩国在工艺和量产方面领先于中国,但在技术、原创及设计领域则落后于中国。因此,韩国专家担忧,随着中国在基础技术研发上的持续投入,韩国半导体领域的优势局面可能难以长期维持。
目前,LPU芯片正凭借其创新的技术架构和出色的性能表现,在AI推理芯片市场中占据一席之地,而且很有可能为中国芯片厂商打开另一片新天地。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
作为功率半导体领域的创新领导者,Power Integrations(以下简称:PI)始终专注于前沿技术研发,持续为全球客户提供突破性解决方案。PI 在功率变换架构、电力电子驱动系统及汽车电子领域构建
本文来源:物联网展行业变革:“位置即服务”正催生万亿级市场裂变数据洞察:2025年全球GNSS市场规模预计达680亿美元,年复合增长率28%,其中智能穿戴、资产追踪、工业安全三大场景贡献超50%。增量
从上表可知,2024年前三季度全球40强PCB企业总营收约416.7亿美元,同比增长7.6%。其中,营收排名第一位的是臻鼎科技(36.05亿美元),排名第2~5位的分别是欣兴电子(26.85亿美元)、
UN低耗LED照明驱动电源IC U6116值得一选LED驱动电源在LED整灯成本中占比不小,在市场竞争激烈的当下,整灯企业希望能够降低LED驱动电源的成本,同时LED驱动电源的品质和性价比也成为主要焦
本文来源:智能通信定位圈自动跟随类的产品属于比较酷炫功能的“黑科技”产品。要实现自动跟随的技术可以有很多,但是最常用的就是UWB,因为UWB定位精度高,现在的成本也在下降,手机中也开始逐渐普及UWB等
Silicon Labs(芯科科技)宣布其MG26系列无线片上系统(SoC)现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案,MG26 SoC
在储能行业蓬勃发展的浪潮中,安富利凭借卓越的技术实力与广泛的市场影响力,荣获2025“北极星杯”储能影响力BMS/EMS供应商奖。这一荣誉不仅是对安富利过往成就的高度认可,更是对其在储能领域持续创新与
3月4日,中国商务部接连发布三则公告,对26家美国实体/企业采取不同的管制措施。商务部公告2025年第13号显示,根据《中华人民共和国出口管制法》和《中华人民共和国两用物项出口管制条例》等法律法规有关
    内容概要:目前,全球半导体、光电等电子信息产业在世界范围内转移,东亚、东南亚等地区已成为世界电子信息行业的主要市场和发展重心;同时由于我国医药卫生、半导
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新《5G时代下的突破机会:论全球电信商FWA布局》报告指出,随着美国电信商T-Mobile、Verizon转移营运重心至拓展建置成本