在现阶段AI百模大战时代,焦点在云数据中心的集中式训练。但众所周知的是,训练本身不能产生价值,推理才是AI释放价值的关键。尤其是DeepSeek的横空出世,更加速了AI推理从云端下沉到端侧的进程,也不断赋予边缘设备越来越先进的智能性,使边缘设备胜任越来越重要的任务。
对于芯片硬件玩家来说,边缘侧形态各异的设备与丰富用例,虽然将为我们带来更多激动人心的机会,但他们不得不考虑三大现实问题:一是大模型、智能体在边缘侧的落地,需要更高性能和能效的边缘计算平台作为支撑;二是保证边缘设备的安全可靠,将会成为边缘AI大规模部署的必要条件;三是AI模型的持续演进,以及基于本地数据的重训练,加上安全补丁,都需要支持端侧软件在线更新、改进和升级。
为了充分释放AI的巨大价值,并与OEM厂商、软件开发者们联手营建边缘AI推理生态系统,Arm日前发布了以全新基于Armv9架构的超高能效CPU —— Arm Cortex-A320以及对Transformer网络具有原生支持的Arm Ethos-U85 AI加速器为核心的边缘AI计算平台。

相较于去年推出的基于Cortex-M85搭配 Ethos-U85 的平台,全新边缘AI计算平台最高可支持四核共享集群,支持运行超10亿参数的端侧AI模型,机器学习(ML)性能提高了八倍,并受到了包括亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技和Eurotech在内的多家合作伙伴的支持。
充分利用Armv9架构特性与优势的边缘AI计算平台
Arm将全新边缘AI计算平台的推出视作边缘计算发展的重要里程碑。在此之前,Arm已有其他处理器在为多样化的边缘侧设备提供良好支持,为何还要推出Armv9边缘AI计算平台?
据了解,Arm此前推出的适用于Armv8-M架构的Cortex-M向量扩展技术—Helium,以及Arm Ethos-U AI加速器已在物联网领域广泛应用,将AI和机器学习能力带到了数十亿台边缘设备上。但当今的物联网环境对边缘设备的需求更胜以往,不断变化的需求使得Armv9的先进功能不再只是锦上添花,而是新一代物联网创新的必备条件。
“Armv9边缘AI计算平台不是CPU和AI加速器的简单堆叠,而是实现了深度配合,让CPU和NPU相得益彰,从而将Armv9架构的功能扩展到高能效设备,并提供全面的软件支持。”Arm物联网事业部业务拓展副总裁马健表示。
该平台所包含的全新的基于Armv9架构的Cortex-A320处理器为功耗受限的设备引入了此前仅在尖端移动计算解决方案中使用的先进功能,使其在AI处理、安全性和整体能效方面均实现了显著提升。
Cortex-A320充分发挥了Armv9架构的优势,如针对ML计算性能的可伸缩向量扩展(SVE2) 技术、对BFloat16等新数据类型的支持以及新增矩阵乘法指令。相较于前代产品Cortex-A35,Cortex-A320的ML性能提升了十倍,标量计算性能提升了30%。
该平台所采用的Armv9.2架构还为最小的Cortex-A设备带来了高级的安全功能,例如指针验证(PAC)、分支目标识别(BTI)和内存标记扩展(MTE)。这些功能至关重要,因为边缘设备通常在暴露的环境中运行并处理敏感数据。同时,Cortex-A320支持S-EL2虚拟化,增强了 TrustZone 内部的隔离性,支持更安全地运行软件容器。这在多用户环境中尤为重要,因为在此类环境中,不同的用户或应用共享相同的物理资源。
Cortex-A320:针对物联网优化的超高能效Armv9 CPU
Cortex-A320是一款基于Armv9.2-A架构的AArch64 CPU,其微架构源自Cortex-A520。Cortex-A320的能效相较Cortex-A520提高了50%以上。这一提升是通过多次微架构的更新而实现,其中包括窄取和解码数据路径、密集存储的L1缓存、缩减端口的整数寄存器文件等优化。
得益于高能效的分支预测器和预取器,以及内存系统的提升等微架构上的显著创新,Cortex-A320在SPECINT2K6基准测试中的标量性能相比其前代产品Cortex-A35提升了30%以上。
更重要的是,通过集成增强的Armv9的Neon和SVE2向量处理技术,在INT8通用矩阵乘法(GEMM)中测得Cortex-A320的ML处理能力比Cortex-A35高出至多10 倍。此外,通过对BF16等新的数据类型、新的点积和矩阵乘法指令的支持,Cortex-A320的ML性能比目前全球最受欢迎的Armv8-A CPU Cortex-A53高出至多6倍。
与Arm Cortex-M处理器相比,Cortex-A320的ML性能也提高了数倍,例如,与性能最高的Cortex-M CPU(Cortex-M85)相比,其GEMM性能提高了8倍。这种性能提升不仅归功于Armv9架构在AI处理上的增强,还源于Cortex-A320内存访问性能的大幅提高和频率的增加。
微架构方面的优化和创新,一直是Arm的强项。作为一款单发射、32位指令取指的有序执行CPU,Cortex-A320实现了优化的八级管线,且具有紧凑的转发网络,从而达到比Cortex-A520更高的频点。
此外,Cortex-A320支持从单核到四核的配置,从而在集群内提供可扩展性。它采用DSU-120T,这是一种精简的DynamIQ共享单元(DSU),可支持仅使用Cortex-A320的集群。DSU-120T是最小的DSU实现,能够显著降低复杂性、面积和功耗,进而大幅提升基于Cortex-A的入门系列产品的能效。
Cortex-A320支持高达64KB的L1缓存和高达512KB的L2缓存,并且具有一个可连接到外部存储器的256位AMBA5 AXI接口。L2缓存和L2 TLB可在Cortex-A320 CPU之间共享,而矢量处理单元可在单核复合体中专用,也可在双核或四核实现中在两个核之间共享。
应用方面,从入门级通用MPU、智能扬声器、软件定义智能摄像头,到工厂车间内的自动驾驶车辆、自动化边缘AI助手、AI人机界面和机器人控制器,Cortex-A320可在广泛的应用中发挥上述优势。除边缘AI应用外,Cortex-A320还可惠及包括智能手表和智能可穿戴设备,以及服务器基板管理控制器(BMC)等基础设施设备在内的众多关键细分市场。
Cortex-A320也非常适合于以往使用高性能Cortex-M的应用,如电池供电的MCU 用例或运行实时操作系统(RTOS)的应用,这些应用需要通过对称多处理来扩展性能,而 Arm的A处理器架构开箱即支持。
此外,它还可用于需要Cortex-A内存管理或地址转换特性的RTOS应用,以增强软件的灵活性。例如,Cortex-A320适合于需要在MCU设备上下载应用的用例,由于其需要内存管理单元(MMU)来跨内存映射进行代码重新定位。
Ethos-U85现可由Cortex-A320直接驱动
与上一代产品相比,Ethos-U85性能提升四倍,能效提高20%,同时,其 MAC 单元可从128个扩展到2048个(在1GHz时,算力实现4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。
对Transformer架构和DeeplabV3语义分割网络的原生硬件支持,是Ethos-U85的一大亮点。同时,Ethos-U85也支持元素级算子链化。通过链化将元素级运算与先前的运算相结合,使SRAM不必先写入再读取中间张量。由此可凭借NPU和内存之间数据传输量的减少,提高NPU的效率。
目前,Ethos-U85驱动程序已完成更新,该NPU现可直接由Cortex-A320驱动,而无需额外搭载Cortex-M。这一更新降低了延迟,并使 Arm 的合作伙伴可以去掉用于驱动AI加速器的额外控制器,从而降低成本和系统复杂性。
从智能手机到服务器市场,Arm Kleidi现已扩展到物联网
考虑到当前边缘AI普及面临的最主要障碍之一是软件开发和部署的复杂性,Arm现已将Arm Kleidi扩展到物联网,这是一套面向AI框架开发者的计算库,旨在优化基于Arm CPU的AI和ML工作负载,无需开发者额外操作。
作为Armv9边缘AI计算平台软件生态系统发挥优势的关键所在,KleidiAI已集成到主流AI框架中,如Llama.cpp、ExecuTorch或LiteRT(通过XNNPACK),加速了Meta Llama 3和Phi-3等关键模型的性能。例如,在Llama.cpp上运行微软的Tiny Stories数据集时,KleidiAI为新的Cortex-A320带来了高达70%的性能提升。
这种可扩展性的优势是显而易见的,因为开发者能够借此打造可随需求变化而灵活调整的解决方案。借助庞大的Armv9生态系统,以及与Linux等功能丰富的操作系统和Zephyr等实时操作系统的兼容性,开发者可以充分利用现有的工具和知识,以及软件复用的优势,从而加快产品上市时间,并降低总体拥有成本。
展望未来
显而易见,AI的未来趋势将转向边缘,而此次发布的全新Arm边缘AI计算平台将成为新一轮物联网创新的催化剂。Armv9架构的特性、先进的AI功能和全面软件支持的结合,为OEM厂商和开发者创造了新的可能性。
