物联网的兴起极大推动了边缘计算设备的普及,随着机器学习(ML)和人工智能(AI)技术的发展,这些系统不仅具备更强的处理能力和连接性,还能够自我学习和适应。近年来,Transformer与大模型的发展又让AI模型的普适性、多模态支持,以及模型微调效率有了质的突破,加上低功耗的AI加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。
为了迎合上述趋势,并解决物联网领域普遍存在的“产品设计缓慢”、“软件开发效率低下”和“缺乏规模化”等问题,Arm早在2021年10月就推出了由Arm Corstone、Arm虚拟硬件和Project Centauri三部分组成的Arm物联网全面解决方案(Arm Total Solutions for IoT),目标是实现“软件与硬件在系统层面的共同设计”。
其第一套解决方案结合了Arm Corstone-300子系统、Cortex® -M55处理器和Arm Ethos™-U55神经网络处理器,主要针对通用计算与机器学习类应用中基于机器学习的关键词辨识按照。半年后的2022年4月,Arm又陆续推出了基于Corstone-1000的云原生边缘设备全面解决方案,以及基于Corstone-310子系统的语音识别全面解决方案。2023年,Arm首次将现有子系统IP与第三方IP整合,并由安谋科技预先集成和预先验证,推出面向中国市场的Arm智能视觉参考设计。
Arm物联网事业部业务拓展副总裁马健日前在接受媒体采访时指出,系统越强大,复杂度也越高,软硬件必须协同工作才能释放AI处理的最大潜能。而且,大模型在边缘AI侧落地也并非想象中这么简单,模型的成熟度、边缘AI平台的开发、整个生态链以及对大模型量化并在边缘部署的工具链支持,是其面临的主要挑战。
为此,Arm日前宣布推出Arm迄今性能最高且能效最佳的Ethos™-U85神经网络处理器(NPU),以及全新物联网参考设计平台——Arm Corstone™-320,以加速实现语音、音频和视觉系统的部署,这也使得Arm物联网全面解决方案的阵容再度得到扩充。
Ethos™-U85:性能提升4倍,全面支持Transformer架构
与部署在基于Cortex®-M异构系统中的Ethos-U55,以及将Ethos-U系列的适用性扩展到基于Cortex-A系统中的Ethos-U65不同,全新的Ethos-U85将性能提升了四倍,能效提高20%。同时,其MAC单元可从128个扩展到2048个(在1GHz时,算力实现4TOPs),能够为工厂自动化、商用或智能家居摄像头等需要更高性能的应用提供有力的支持。
Arm Ethos-U85 提供卓越的神经网络加速功能
对Transformer架构和DeeplabV3语义分割网络的原生硬件支持,是Ethos-U85的最大亮点之一。众所周知,于2017年问世的Transformer架构彻底改变了生成式AI,正成为许多新型神经网络的首选架构。基于Transformer架构的模型可利用注意力机制处理序列数据,并在机器翻译、自然语言理解、语音识别、分割和图像字幕生成等多项AI任务中实现优异的效果。这些模型可被调整和压缩,在不过多影响准确度的情况下,能高效运行于边缘设备上,并在许多边缘侧和端侧用例中发挥领先的优势。
同时,Ethos-U85也支持元素级算子链化。通过链化将元素级运算与先前的运算相结合,使 SRAM不必先写入再读取中间张量。由此可凭借NPU和内存之间数据传输量的减少,提高NPU的效率。相比于Ethos-U65,链化是Ethos-U85在效率提升上的新功能之一,其余还包括快速的权重编码器、优化的MAC阵列能效,以及提升的元素效率。
为了确保合作伙伴能够利用现有的投资,达到无缝的开发者体验,Ethos-/U55/U65/U85这三款产品均提供统一的工具链,可简化开发并支持常见的ML神经网络运算,包括卷积神经网络(CNN)和循环神经网络(RNN)。
Corstone-320:加速语音、音频和视觉物联网系统的部署
作为Arm物联网全面解决方案的核心之一,Arm Corstone是一套经过验证且预先集成的IP子系统,可以让开发者专注在真正重要的部分,也就是跨不同应用和设备的创新与差异化上。
最新的Corstone-320集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali™-C55 ISP和全新的Ethos-U85 NPU,能够为语音、音频和视觉等广泛的边缘AI应用提供所需的性能,例如实时图像分类和目标识别,或在智能音箱上启用具有自然语言翻译功能的语音助手。
Arm助力加速边缘AI设备部署进程
采用Arm8.1-M架构的Arm Cortex-M85是迄今为止性能最强的Cortex-M处理器。与Cortex-M7相比,其标量性能提升了30%;与Cortex-M55相比,性能提高了85%,而Arm Helium™矢量扩展技术可支持终端ML和DSP工作负载的性能提升。尤其值得关注的,是其搭载的指针认证和分支目标识别(Pointer Authentication and Branch Target Identification, PACBTI)功能,具备增强的软件攻击威胁缓解能力,有助于实现物联网部署的安全基线PSA Certified Level 2认证。
Mali-C55集成了高分辨率图像处理能力(可支持4800万像素的图像分辨率)、能效、可配置性及无与伦比的图像质量,适用于广泛的物联网视觉应用。同时,高度可配置的直接内存访问控制器DMA-350,可实现高效的数据移动,从而提高系统性能和能效,并支持Arm TrustZone技术。
与此前推出的物联网参考设计一致,Corstone-320软件套件包括固件、所有IP的驱动程序、中间件、实时操作系统(RTOS)和云集成、ML模型和参考应用程序。这意味着软件开发者能够轻松选择其特定细分市场所需的组件,并使用所选开发工具为该设备构建物联网堆栈。
与此同时,Corstone-320中包含的原型平台能使软件开发与SoC设计并行启动,开源应用程序演示了关键词识别、语音识别和目标识别用例,固定虚拟平台(FVP)用于对构成完整FPGA系统的外设进行建模。通过使用FVP,软件开发者无需硬件即可开始开发应用,从而加快开发速度。
马健介绍说,全新参考设计是针对实际工作负载开发的,参考用例包括部署在智能家居中的电池供电摄像系统,以及在工业和零售系统中的低帧率网络摄像头。同时,Corstone-320 参考设计提供了有安全保证的软硬件组合,使得在此参考设计基础上开发的合作伙伴们能够顺利地通过 PSA Certified Level 2 认证,实现对区域和全球安全标准的合规。Arm希望通过Corstone-320预先集成、预先验证的参考设计模版,帮助合作伙伴减少边缘智能芯片开发的成本和时间。
打造基于Arm平台的AI软件生态系统
在马健看来,未来,AI模型就像一个“大脑”,可以综合各类传感器、摄像头,以及外部天气、消费者喜好、自然语言命令等多种输入,更安全、更节能地营造个性化的应用场景。
例如,通过个性化购物体验、智能库存管理、动态定价策略、线上线下无缝整合,以及自动化运营等,AI和大模型将使零售业变得更加智能化、个性化和自动化,带来更高的效率和更卓越的客户体验。在工业领域,AI和大模型还有望推动工业从4.0向5.0的转变,实现智能化生产线、精准的质量控制、个性化定制生产、供应链优化、自主维护与远程监控、人机协作、节能减排,以及新材料和工艺的开发等,为制造业带来一场深刻的变革。
但边缘AI在带来机遇的同时也带来了挑战。因为在设计边缘AI芯片和系统时,不但需要在计算能力、能效和成本之间找到合适的平衡,还要求出色的加密和安全功能。同时,为了更好地统一多样化应用要求,达到规模化效益,软件定义和适于软件移植的标准更是必不可少。
此外,随着大模型持续通过量化、剪枝和聚类技术来缩减优化模型,使之更适于在边缘和超级终端设备部署,大小模型云边端结合正成为未来AI产品的重要发展趋势。如何面对来自物联网与大模型、多模态AI结合的性能与效率极限?如何打造一致性的工具链和开发平台?如何让物联网生态链上下游的芯片与系统供应商、算法软件开发者与集成商们越来越汇聚在Arm计算平台?是Arm正在思考和布局的重点。
“只有Arm计算平台才能提供AI从云到端、现代敏捷开发和部署流程中所需的特性和功能,实现基于量产验证的一致架构,并采用统一工具链的AI转型。”马健强调称,从Arm的角度来说,只要做好三件事:专注打造最优秀的产品,让产品更加易用,持续打造强大的生态系统,整个行业就能够以互相合作的方式来共同前进,在这种力量的带动下,Arm也会取得更大的成功。
基于Arm平台的AI软件生态系统
目前,相当多的AI研究开发社区不仅持续受益于Arm生态系统与合作伙伴提供的丰富信息与知识,也围绕Arm计算平台构建日益增长的软件和工具生态系统,以及开源软件库和AI框架。比如PyTorch基金会投资边缘AI,发布针对移动和边缘设备推理工具包ExecuTorch,提供了轻量级运行时(Runtime)和算子注册表,覆盖了PyTorch生态系统中的各类模型。
此外,由于Arm特有的IP授权许可模式和开放生态,OEM和ODM可以有多种基于Arm架构和计算平台的芯片与模组选择,更灵活地开发适于最终应用的系统方案。