随着 Transformer 与大模型的发展,以及生成式 AI 崛起,AI 模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上用户体验的持续提升、数据量激增,以及企业对数据价值的认可,边缘AI行业正经历巨大变化。大小模型云边端结合成为未来 AI 产品的重要发展趋势,也是 AI 应用赋能行业发展的重要方向。
边缘 AI 的重要特点就是节省带宽、更具安全性、减少数据传输、提高响应速度和可靠性。近来,随着低功耗的 AI 加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。边缘AI为物联网发展带来了前所未有的发展机遇,但同时也面临一些设计上的挑战,就是对能效和成本方面有比较严格的限制。
软硬件协同才能释放AI最大潜能
在设计边缘 AI 芯片和系统时,需要在计算能力和能效之间找到合适的平衡。高性能的处理能力往往伴随着更高的功耗,而边缘设备往往对功耗和成本都有着严格限制。与此同时,随着越来越多的数据在边缘被处理,数据安全和隐私保护变得尤为重要。这要求芯片设计必须包含加密和安全功能。
传统物联网市场存在碎片化,为了更好地统一多样化的应用要求,达到规模化效益,软件定义和适于软件移植的标准更是必不可少。此外,系统变得愈加强大,其复杂度也随之提升。软硬件必须协同工作才能释放 AI 处理的最大潜能。
随着边缘AI的部署规模持续扩大,芯片创新者必须应对日趋复杂的系统和软件、不断激增的 AI 性能需求,以及加速产品上市进程的压力。与此同时,软件开发者需要更加一致、简化的开发体验,并能更轻松地与新型的 AI 框架和库实现集成。Arm 物联网事业部业务拓展副总裁马健表示:“Arm坚信, AI 需要硬件和软件之间的紧密结合。边缘 AI 潜力巨大,有望助力多个领域的持续智能化演进与转型。”
近日,Arm 推出迄今性能最高且能效最佳的 Ethos NPU 产品Ethos-U85神经网络处理器 (NPU) 。与上一代产品相比,Ethos-U85性能提升四倍,能效提高 20%。与此同时,Arm还推出了全新物联网参考设计平台——Arm Corstone-320, 集成了前沿的嵌入式 IP 和虚拟硬件,可加速语音、音频和视觉系统的部署。
全新的 Ethos-U85 和 Corstone-320 参考设计平台,满足了边缘 AI 用例对更高性能计算的需求,为最新的 AI 模型、框架提供了原生支持,并沿用 Arm 软件与 AI 开发者已经熟知的工具链,具有投资复用、上手容易等优势。
Arm Ethos-U NPU
边缘 AI 用例日趋复杂,想要把握 AI 时代的机遇离不开安全、高性能的计算系统。Arm Ethos-U NPU系列是业界首款 AI 微加速器。据介绍,迄今,Arm Ethos NPU 系列产品已有逾 20 家授权许可合作伙伴,包括英飞凌、恩智浦半导体、奇景光电 (Himax)、Alif Semiconductor 和 Synaptics 等领先企业均已推出搭载 Ethos-U 的量产芯片。其中,Alif Semiconductor 和英飞凌是全新 Arm Ethos-U85 NPU 的早期采用者。
Ethos-U85 专为与 Arm 领先的 Armv9 Cortex-A CPU 相结合而设计,以加速处理机器学习 (ML) 任务,并为更广泛的更高性能设备提供高能效的边缘推理能力。其 MAC 单元可从 128 个扩展到 2048 个,在最高性能配置下提供 4TOPs 的 AI 算力,以可持续的方式支持未来的应用场景,并提供了与前几代Ethos U产品相同的一致工具链,达到无缝的开发者体验。
Arm Ethos-U85 提供卓越的神经网络加速功能
此外,Ethos-U85 NPU 支持 TensorFlow Lite 和 PyTorch 等 AI 框架,支持 Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。Transformer 在视觉和生成式 AI 用例中,比如视频理解、图文结合,图像增强与生成、图像分类和目标检测等方面都极有价值。Transformer 架构网络的注意力机制容易利用并行计算来实现,提高硬件使用效率,使得这些模型能够部署在计算资源有限的边缘设备上。开发者可以通过选用针对 Transformer 架构网络优化的设计,发掘边缘 AI 的新机遇,使这些应用享有更快的推理、更优化的模型性能和可扩展性。
新一代边缘 AI 应用的 ML 工作负载需要以节能的方式提供高性能表现。Ethos-U85 不仅支持低功耗 MCU 系统中的 AI 加速。在高性能边缘计算系统中,Ethos-U85 也能够很好地支持。马健分享说:“加之我们领先的 Armv9 Cortex-A CPU,将为基于应用处理器的智能物联网平台上运行的 AI 任务实现加速。这将使 Ethos-U85 能够在工业机器视觉、边缘网关、可穿戴设备和消费类机器人等应用中,带来高效能的边缘推理。“
相较于此前的 AI 技术,大模型和生成式 AI 最大的优势是泛化能力,及对多模态的支持。例如对图像生成、图像分割等多种用例的泛化、普遍性的支持。另外,大模型和多模态的优势是微调时间,用比较少的新样本进行模型的重新训练和微调,使这些模型很快适应之前没有看到过的新环境。例如智能家居的一些用例,已经从单一模型支持不同的传感器,到统一模型支持各种不同的多模态传感器的输入。
这种多模态 AI 以及未来自然语言的交互都需要大模型和多模态的支持,同时也对 AI 的算力提出了更高的要求。Ethos-U85 NPU AI 加速器正是基于这一趋势而发布的。马健分享到:“我们认为只有普适性的通用计算平台才可能达到规模化,进而更好地实现丰富的软件支持。期待未来通过大模型和多模态,物联网碎片化问题可以得到更好的改进,AI 会从一个单一功能到多功能,甚至是向通用 AI 的方向演进。”
Arm Corstone-320
在万物智能的驱动下,无处不在的 MCU 和嵌入式系统对性能和 AI 加速的需求与日俱增。顺应这一趋势, 针对实际工作负载,Arm 特推出了全新的智能物联网参考设计平台Arm Corstone-320。它集成了 Arm 最高性能的嵌入式处理器 Cortex-M CPU——Cortex-M85、全新的 Ethos-U85 NPU AI 加速器,以及以实现为视觉应用优化的低功耗系统 Arm Mali-C55 ISP。
Corstone-320 不仅仅提供芯片计算子系统 IP 组合,还附带了软件、AI 模型库和开发工具,以实现软件的复用。其参考用例包括部署在智能家居中的电池供电摄像系统,在工业和零售系统中的低帧率网络摄像头,以及提供了有安全保证的软硬件组合。基于这种特性,将使开发者能够在物理芯片就绪前便启动软件开发工作,从而加速推进产品进程,为日益复杂的边缘 AI 设备缩短上市时间。
此外,Arm 在发布每款参考设计的同时,也会提供相应的 Arm虚拟硬件,虚拟硬件是对参考设计 IP 组合子系统的一个仿真。仿真可以在子系统的芯片就绪之前,就启动在云端仿真平台上的 AI 和 ML 以及应用的开发。为了支持中国广大的物联网嵌入式开发者,Arm 将虚拟硬件落地在了百度云上,正在实现与百度 BML 和 EasyDL 工具链的组合,使基于 Arm 技术的 AI 开发可以在百度飞桨 (PaddlePaddle)进行,且实现软硬件协同开发,即在基于 Arm 最新 IP 量产芯片就绪之前,就可以预先做软件应用的开发,以及 AI/ML 算法的开发和优化。
马健表示:“所有这些努力都是使生态能够更加统一,使技术能够更加标准化,最终目的是使 AI 和软件开发者能够更便利地基于 Arm 架构、从云、边、端打造统一的计算平台,迅速地开发出所期望的新应用。”
结束语
边缘 AI 的演进历史可以追溯到早期嵌入式系统,比如家用空调、电表等设备都会内置嵌入式处理器,从而实现控制和设备管理等简单功能。马健认为,当前,边缘 AI 的广泛部署已趋向成熟,其发展在中国市场尤为迅速。
未来,AI 模型就像一个家庭“大脑”,可以综合家里各类传感器、摄像头,以及外部天气、家人喜好、自然语言命令等多种输入,更安全、更节能地营造个性化的家居环境。AI 和大模型将使零售业变得更加智能化、个性化和自动化。通过个性化购物体验、智能库存管理、动态定价策略、线上线下无缝整合,以及自动化运营等,带来更高的效率和更卓越的客户体验。AI 和大模型还有望推动工业 4.0 向工业 5.0 的转变,实现智能化生产线、精准的质量控制、个性化定制生产、供应链优化、自主维护与远程监控、人机协作、节能减排,以及新材料和工艺的开发等,为制造业带来一场深刻的变革。
随着边缘 AI 的持续发展,Arm 始终处于推动市场和技术进步的核心地位。目前,基于Arm架构 的芯片出货量已达 2800 亿颗,全球范围内有 1000 多个生态系统合作伙伴及 1500 万 Arm 生态开发者。
马健总结说:“Arm 在 IP、参考设计和软件标准上持续投入,从而帮助整个边缘 AI 生态应对来自算力、能效、安全以及市场碎片化等方面的挑战。目前,全球约有 90% 的 AI 都运行在基于 Arm 架构的 CPU 上,这些持续投入使 Arm 成为全球最普遍的 AI 计算平台之一。但,我们不会止步于此。Arm 将与生态伙伴们砥砺奋进,释放前所未有的 AI 潜力。”