AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态……

AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。

以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态:华为的NPU、联发科的APU、高通的异构AI引擎,乃至苹果的神经网络执行单元。这个在主SoC上常驻的运算单元,并不像CPU、GPU那样有着典型的标准和生态。

我们首先想到有能力带动边缘终端设备AI单元“标准化”的,应该就是Arm了。不过Arm的动作比我们预想的都稍慢一些,去年2月,Arm才宣布要推Project Trillium机器学习IP;去年5月给出了有关Project Trillium机器学习处理器架构的更多细节信息。到上个月底正式宣布推出其NPU IP产品Ethos-N57/N37(最高规格的N77理论上算是已推的产品)。

在珊珊来迟的情况下,Arm的生态能力是否能够持续在NPU上有所体现,是值得我们观察的。更有趣的是,Arm生态掌控开始出现松动的迹象还体现在IoT领域,尤其今年国内RISC-V呼声如此之高,而且IoT——尤其是IIoT本来就是个需求碎片化的市场,Arm的生态能力在此间又有多少价值?

在前不久于上海举办的Arm Tech Symposia 2019大会上,我们专访了Arm市场营销副总裁Ian Smythe,从中或可知Arm在这件事情上的态度。

20191104-arm-1.jpg

Arm市场营销副总裁Ian Smythe

Arm的NPU能做什么?

除了NPU之外,Arm同期发布的还包括GPU IP:Mali-G57,这应该是Arm中端定位GPU中的首款Valhall架构产品;以及DPU Mali-D37。这里我们重点要谈的是Ethos系列NPU。

首先我们先了解一下Arm的Ethos家族NPU(包括了N77、N57、N37)究竟是怎么回事。去年Arm还将其称作“Arm Machine Learning processor”,今年的TechCon大会时,NPU这个名字就被钦定了(不知联发科、苹果和高通怎么看待这件事,华为:有什么问题吗?)。

20191104-arm-2.jpg

这三款IP的性能预期如上图所示,其中最高配的N77在1GHz频率下可以达到4 TOPS算力,效率在5 TOP/W;可选配的片上SRAM为1-4MB。Ethos NPU的CE计算引擎,主要由MCE(MAC乘法累加计算引擎)、PLE(可编程层引擎)和SRAM三部分组成。

在N77、N57和N37几个IP上,CE模块数量会有差别(N77至多16个CE,N57至多8个,N37至多4个),主体以此来划分产品定位。在应用方向上,N37可应用于智能电视、安防摄像头,N57则可面向智能家居中枢 ,N77的市场在高端智能手机、computational photography,还有AR/VR等。

内部结构上,(1)支撑原生算力部分的,就是一系列的MAC引擎;(2)与此同时,提供某种程度的可编程控制流模块;(3)外加存储子系统。所以Arm的机器学习IP着力点主要在三方面:卷积计算的效率、足够的可编程性,以及高效的数据移动。从这个层面来看,Ethos和市场上不少现有的神经网络加速IP是类似的。

20191104-arm-3.jpg

Ethos NPU内部包含一些通用功能模块,如存储互联接口、DMA引擎。上面这张图的绿色箭头表示的是数据流,红色则为控制流。SRAM是CE(计算引擎)执行计算操作的本地通用buffer。每个CE都有一些固定功能模块,在神经网络模型上的多个层级执行操作,比如Input feature map read模块要将控制信息传递给权重decoder。在此,卷积操作的核心是128-wide的MAC单元,针对存储了神经网络模型的量化权重(quantized weights)8bit、16bit整数数据执行操作。

20191104-arm-4.jpg

在选择AI处理器的方向时,Arm很显然是偏向通用的思路的(也是Arm的唯一选择,而有一类AI芯片制造商选择了相对专用的思路),毕竟我们谁也不知道未来会有什么样的模型架构出现——所以具备针对未来应用的架构弹性,是现阶段很多AI芯片制造商考虑的关键。前文就提到的PLE可编程层引擎,就是一个带有矢量与神经网络特定指令的专用处理单元,这里的神经网络“特定指令”,能够以相比固定功能模块,更具弹性和可编程性的方式,应用于其他层级的操作。

就Arm市场宣传的NPU特色来看,Ethos的一大亮点在于数据集/特征图部分数据的压缩能力。Arm采用一种无损压缩算法,宣称达到最高3倍的压缩比,这样就能减少外部DRAM带宽压力,对于整个系统性能都有积极价值。

20191104-arm-5.jpg

针对神经网络模型的训练和优化,实际更能提升存储带宽相关的性能表现。Arm的软件工具针对更大的压缩比,以及去相关连接(prune,如上图),进行数据优化,最终可以减轻MAC引擎的运算需求,提升能效比。

不过其实我们并不能从Arm提供的这些信息来判断,Ethos NPU相比市面上已经存在的各家神经网络处理单元是否有优势——包括宣传中提到的Winograd技术,其实都属于常规操作。从时间上来看,华为、苹果的同类单元部署,乃至生态的搭建都已经有一段时间了。

而Arm在机器学习方面相对知名的方案,是在Mali GPU中加强机器学习性能,比如今年年中Valhall架构发布之际,宣传其机器学习性能提升60%。在AI专核领域,Arm仍是个后来者,在这个已经逐渐碎片的市场上,Arm是如何打算的?

“需要更加一致的软硬件API”

在大部分人看来,Arm的优势就在“生态”构建能力上,毕竟其移动、IoT等市场的份额无论如何都是不容小觑的。能够直观体现这种能力的是Arm在开发软件生态上的搭建。Ian Smythe说:“Arm NN框架,是一个开源的架构,可加速机器学习部署的框架。在这个框架体系下,我们可以帮助开发者更简单、快速地获得硬件的全部性能,完成解决方案的部署。”

“我们的一大优势,就是非常完整的、在全球范围内部署的软件生态系统。这是Arm非常重要的一个基石所在。正是基于软件生态系统,我们才能在数十年内拥有这么多的合作伙伴,有这么紧密的合作。”

20191104-arm-6.jpg

Arm NN的价值在于隐藏底层硬件的复杂性,另外让开发者可使用他们熟悉的高层神经网络框架(如TensorFlow)。在面向硬件时,可以融合各种IP,包括调动NPU这样的专核(也可以是第三方的IP,按照Ian Smythe所说,这类实例已经非常巨量),并以NN优化算法同时调动CPU、GPU。这在我们看来,可能会成为Arm在机器学习IP方面的一个优势项。

Ian Smythe告诉我们:“具体的应用场景中有很多不同的工作负载,某些负载CPU擅长,有些GPU处理起来更高效,而相对复杂的AI工作,NPU用起来就更有效率:比如图像识别。不过我们在此需要考虑一个重要因素,在工作负载从CPU offload(转往其他处理单元)时,这中间本身消耗的成本有多高是需要考虑的。”

“比如比较简单的短关键词识别,这种场景并不需要AI核心来处理,Cortex核心就能完成这些工作;但是图像识别这样的任务,启用AI核心才能更好地识别图像内容。”

“这两个例子都是相对简单的情况,而很多时候并不是这么容易的,我们需要在中间点做各种考量。我们需要解决的是,找到一个平衡点,来进行调用和计算。所以Arm有专门的分析系统和解决工具,我们有更好的开发工具链体系,满足这样的需求。比如,Arm有专门的单元库,让上层同时加载GPU和NPU计算资源。”

Arm NN在首发时宣传的一个亮点就是Compute Library包含一系列低级别机器学习和计算机视觉函数,面向Cortex-A CPU和Mali GPU(那时NPU还没有发布)。这个Compute Library的目标就是汇集针对这些函数的优化:这些当然是对开发者隐藏的。现在新版本的Arm NN必然是加入了NPU抽象考量的。

不过实际在芯片制造商打造自己的AI专核或解决方案时,相应的开发框架也在不停涌现,典型如高通的SNPE,联发科的NeuroPilot等,这也是目前这一市场还处在发展前期的表现。高通SNPE和华为的HiAI也是典型调用异构单元做加速处理的框架。

20191104-arm-7.jpg

在面向Android NNAPI时,NNAPI提供一个硬件抽象层,面向不同类型的处理器;Arm NN for Android在此是为Mali GPU提供硬件抽象层,未来的版本会支持Arm机器学习处理器

或许这个时候就是考验生态搭建能力,以及对微架构和软件理解能力的时候了。Arm与前面提到的这几家厂商的差别,在整个生态链所处的位置是不同的。这大概就能够成为Arm的优势。

“第三方应用要访问CPU以外的资源,这件事是存在挑战的。第三方开发者需要思考,我怎么用API,如何访问AI加速资源:这些资源可以为我的app所用吗?我用的游戏引擎支持吗?这很难。第三方开发者必定希望他们上市的软件版本越少越好,不需要针对不同处理器、芯片编译更多不同的程序,减少开发时间。”Ian Smythe表示。

“机器学习市场现在还在发展的初级阶段,市场上存在很多不同的AI实施方案,但这种分化局面不会持续多久。未来的市场一定会更加趋于统一,虽然这个过程需要多久我不清楚。但我们需要更加一致的软硬件API,来提供AI性能,我觉得这对未来市场的发展是非常重要的。”

针对上述问题,Ian Smythe还特别举了个例子:“去年年底,Facebook做一项研究,还出了白皮书,是针对市场上不同的芯片架构,对Facebook的app做优化。研究最终结论是,应该为Cortex-A53做优化,因为这是现在市场上使用最广泛的架构。这是来自第三方的观点。”

“第一方市场出现分化当然没什么,但你不能因此要求第三方也去分化。大家需要合作。写完代码就在所有的手机上跑起来,这是我们的目标,也是我们的优势所在。从CPU、GPU、NPU做部署,我们要让整个过程变得简单、便捷。”

生态的价值可以有多大?

到这里,Arm的态度已经十分明确了,即便在AI芯片市场,Arm算是个后来者,依然能够利用生态的优势来开辟局面。生态的力量在此可能仍然是强大的。

最后值得一提的是,很多人说IoT市场需求和应用碎片化,Arm的生态优势已经没有价值。RISC-V因此对Arm造成巨大威胁。Ian Smythe则表示,“这类型的竞争我们经历过很多。”“一方面,Arm有自己的ISG业务(物联网服务集团),有端到云的服务,我们有能力去理解边缘设备如何进行管理、控制和实施,包括做各种相关IoT边缘的内部分析——这都是Arm生态系统的组成部分,贯穿整个生态为你提供支持。”

20191104-arm-8.jpg

Arm的Pelion IoT平台,是去年Q3 Arm发布设备到数据IoT平台;这个平台产品涵盖了Arm早前收购具备连接管理能力的Stream和云数据管理平台的Treasure Data

“如果你想选择现成的芯片,我们生态中的的选择非常多样化,哪怕只是一些微小的需求差异,都能找到对应选择。如果你考虑自己做芯片,RISC-V的确取得了很大的关注,但一旦涉及到SoC设计,它和Arm需要面临的挑战是一样的,都很难,从RISC-V IP供应商进行授权可能也需要花钱。”

“Arm的生态系统在不断成长中的,我们有大量可选的CPU产品;我们有完整的工具链和生态;我们和EDA供应商有着很好的合作关系,做验证测试也会更便捷。就只说我们的自定义指令集支持,我们依然要确保其一致性、完整性,这是我们必须做到的。但RISC-V一方是无法保证这些的。”

“生态的价值,在于你可以做出选择(The power of ecosystem there is that the choices is available)。”

参考来源:
[1]Arm NN - Arm Developer(https://developer.arm.com/ip-products/processors/machine-learning/arm-nn)
[2]ARM Details "Project Trillium" Machine Learning Processor Architecture - AnandTech(https://www.anandtech.com/show/12791/arm-details-project-trillium-mlp-architecture)

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
索尼新专利利用人工智能(AI)技术来预测玩家的操作输入,从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”,通过智能AI模型提前判断玩家的意图,并在实际操作完成之前执行相应的指令,从而提升游戏的流畅度和响应速度......
人类的发明,即工程系统,依赖于物理学和数学基本原理,如麦克斯韦方程、量子力学和信息论等,以实现特定目标。然而,随着工程系统复杂性和规模迅速增长,其子组件的功能可能呈现出非线性特性,这使得基于第一原理的设计方法受到限制。
半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
随着AI和量子计算等前沿领域的快速发展,GlobalFoundries、Tower Semiconductor以及多家公司正积极迎接硅光子技术带来的新机遇。这项新兴技术有望为二线代工厂带来竞争优势,并推动全球芯片制造技术的多样化发展。
富士康在一份声明中说,作为苹果公司最大的 iPhone 组装商,富士康第四季度营收增长 15.2%,达到 2.13 万亿新台币(647.2 亿美元),比LSEG SmartEstimate预测的2.1万亿新台币还要高......
大多数研发人员和导热界面材料配方设计师可能会推荐使用具备诸多优异特性的硅。然而,也存在一些例外情况。这些问题强调了在选择导热界面材料时考虑终端产品最终应用的重要性.....
在与芯科科技(Silicon Labs)首席技术官Daniel Cooley的交谈中,我们了解到该公司在物联网(IoT)和智能边缘领域所发挥的作用和未来发展。
虽然绕过产品防伪保护的手段变得越来越高级,但是最新的 NFC 芯片技术提高了信息安全性,让品牌能够保护知识产权,预防客户误买假冒商品。
西门子推出Simcenter更新版本,助力客户简化工作流程,加快航空航天认证,同时提供深入洞见
文|温风回顾完过去,再聊聊新的一年,沃尔沃从产品层面,还有哪些亟待解决的问题?首先是纯电高端化的挑战。这不是沃尔沃一家的命题,宝马i5/i7,奔驰EQE/EQS,没有一款对自身旗下传统动力车型产生强烈
本文来源:智能通信定位圈日前,瑞士物联网模组制造商u-blox表示,将在2025年逐步淘汰其亏损的蜂窝物联网业务。该部门拥有200多名员工,预计关闭后将有岗位裁撤。公司声明称:“经过仔细评估,u-bl
荣耀正站在品牌独立第五年和IPO的关键时刻。美通社消息,1月17日,荣耀终端股份有限公司发布公告,宣布了最新的高管任职:赵明先生因个人原因辞去公司董事、CEO等相关职务,董事会决定由李健先生接替赵明先
互联网与科技企业每日重点资讯文 | 苏丁巨头动向特朗普给予TikTok禁令75天宽限期美国总统特朗普当地时间20日签署行政令,要求短视频社交媒体平台TikTok“不卖就禁用”法律在未来75天内暂不执行
现货促销让采购/更简单/更高效为了更好地帮助大家采购芯片,实现供需资源的无缝对接。AMEYA360决定开启【现货促销】专栏,通过AMEYA360微信公众号,每天推送原厂现货促销物料,助力广大用户制定更
尊敬的会员主联系人:为提升服务品质,自2025年1月起,IPC中国团队将定期整理会员裨益最新资讯,请将此文转发给相关同事,方便大家及时了解和使用会员裨益。一、会员免费标准下载2024年11月份发行了5
1月20日消息,据外媒报道,英特尔已成为“某家公司”的收购目标,而特斯拉CEO马斯克被认为是该传闻中英特尔的潜在收购者!据悉,这一收购传闻最早由SemiAccurate报道,该网站称约两个月前读到一封
文|温风2024是所有豪华品牌都不好过的一年。中国市场豪华品牌在参与价格战和不参与价格战中反复横跳,也牵动着跨国品牌全球市场的销量和财报数字。想在全球豪华市场榜单脱颖而出,就必须在销量占全球近1/3,
刚进入2025年,汽车电驱行业又有2个项目宣布投产:● 上汽通用五菱:青岛电驱项目正式落地投产,年产能30万台;● 菲仕科技:赣州电驱项目投产,年产能12万台,供应小鹏汽车。五菱电驱项目投产年产能30
会议推介2025中国国际LED产业发展大会暨首届JM Insights春茗会 主办单位:JM Insights 支持单位:深圳市平板显示行业协会 论坛时间:2025年2月20日 论坛地址:深圳·国展皇