全新边缘AI计算平台最高可支持四核共享集群,支持运行超10亿参数的端侧AI模型,机器学习性能提高了八倍,并受到了包括亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技和Eurotech在内的多家合作伙伴的支持。

在现阶段AI百模大战时代,焦点在云数据中心的集中式训练。但众所周知的是,训练本身不能产生价值,推理才是AI释放价值的关键。尤其是DeepSeek的横空出世,更加速了AI推理从云端下沉到端侧的进程,也不断赋予边缘设备越来越先进的智能性,使边缘设备胜任越来越重要的任务。

对于芯片硬件玩家来说,边缘侧形态各异的设备与丰富用例,虽然将为我们带来更多激动人心的机会,但他们不得不考虑三大现实问题:一是大模型、智能体在边缘侧的落地,需要更高性能和能效的边缘计算平台作为支撑;二是保证边缘设备的安全可靠,将会成为边缘AI大规模部署的必要条件;三是AI模型的持续演进,以及基于本地数据的重训练,加上安全补丁,都需要支持端侧软件在线更新、改进和升级。

为了充分释放AI的巨大价值,并与OEM厂商、软件开发者们联手营建边缘AI推理生态系统,Arm日前发布了以全新基于Armv9架构的超高能效CPU —— Arm Cortex-A320以及对Transformer网络具有原生支持的Arm Ethos-U85 AI加速器为核心的边缘AI计算平台。

相较于去年推出的基于Cortex-M85搭配 Ethos-U85 的平台,全新边缘AI计算平台最高可支持四核共享集群,支持运行超10亿参数的端侧AI模型,机器学习(ML)性能提高了八倍,并受到了包括亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技和Eurotech在内的多家合作伙伴的支持。

充分利用Armv9架构特性与优势的边缘AI计算平台

Arm将全新边缘AI计算平台的推出视作边缘计算发展的重要里程碑。在此之前,Arm已有其他处理器在为多样化的边缘侧设备提供良好支持,为何还要推出Armv9边缘AI计算平台? 

据了解,Arm此前推出的适用于Armv8-M架构的Cortex-M向量扩展技术—Helium,以及Arm Ethos-U AI加速器已在物联网领域广泛应用,将AI和机器学习能力带到了数十亿台边缘设备上。但当今的物联网环境对边缘设备的需求更胜以往,不断变化的需求使得Armv9的先进功能不再只是锦上添花,而是新一代物联网创新的必备条件。

“Armv9边缘AI计算平台不是CPU和AI加速器的简单堆叠,而是实现了深度配合,让CPU和NPU相得益彰,从而将Armv9架构的功能扩展到高能效设备,并提供全面的软件支持。”Arm物联网事业部业务拓展副总裁马健表示。

该平台所包含的全新的基于Armv9架构的Cortex-A320处理器为功耗受限的设备引入了此前仅在尖端移动计算解决方案中使用的先进功能,使其在AI处理、安全性和整体能效方面均实现了显著提升。

Cortex-A320充分发挥了Armv9架构的优势,如针对ML计算性能的可伸缩向量扩展(SVE2) 技术、对BFloat16等新数据类型的支持以及新增矩阵乘法指令。相较于前代产品Cortex-A35,Cortex-A320的ML性能提升了十倍,标量计算性能提升了30%。

该平台所采用的Armv9.2架构还为最小的Cortex-A设备带来了高级的安全功能,例如指针验证(PAC)、分支目标识别(BTI)和内存标记扩展(MTE)。这些功能至关重要,因为边缘设备通常在暴露的环境中运行并处理敏感数据。同时,Cortex-A320支持S-EL2虚拟化,增强了 TrustZone 内部的隔离性,支持更安全地运行软件容器。这在多用户环境中尤为重要,因为在此类环境中,不同的用户或应用共享相同的物理资源。 

Cortex-A320:针对物联网优化的超高效Armv9 CPU

Cortex-A320是一款基于Armv9.2-A架构的AArch64 CPU,其微架构源自Cortex-A520。Cortex-A320的能效相较Cortex-A520提高了50%以上。这一提升是通过多次微架构的更新而实现,其中包括窄取和解码数据路径、密集存储的L1缓存、缩减端口的整数寄存器文件等优化。

得益于高能效的分支预测器和预取器,以及内存系统的提升等微架构上的显著创新,Cortex-A320在SPECINT2K6基准测试中的标量性能相比其前代产品Cortex-A35提升了30%以上。

更重要的是,通过集成增强的Armv9的Neon和SVE2向量处理技术,在INT8通用矩阵乘法(GEMM)中测得Cortex-A320的ML处理能力比Cortex-A35高出至多10 倍。此外,通过对BF16等新的数据类型、新的点积和矩阵乘法指令的支持,Cortex-A320的ML性能比目前全球最受欢迎的Armv8-A CPU Cortex-A53高出至多6倍。

与Arm Cortex-M处理器相比,Cortex-A320的ML性能也提高了数倍,例如,与性能最高的Cortex-M CPU(Cortex-M85)相比,其GEMM性能提高了8倍。这种性能提升不仅归功于Armv9架构在AI处理上的增强,还源于Cortex-A320内存访问性能的大幅提高和频率的增加。

微架构方面的优化和创新,一直是Arm的强项。作为一款单发射、32位指令取指的有序执行CPU,Cortex-A320实现了优化的八级管线,且具有紧凑的转发网络,从而达到比Cortex-A520更高的频点。

此外,Cortex-A320支持从单核到四核的配置,从而在集群内提供可扩展性。它采用DSU-120T,这是一种精简的DynamIQ共享单元(DSU),可支持仅使用Cortex-A320的集群。DSU-120T是最小的DSU实现,能够显著降低复杂性、面积和功耗,进而大幅提升基于Cortex-A的入门系列产品的能效。 

Cortex-A320支持高达64KB的L1缓存和高达512KB的L2缓存,并且具有一个可连接到外部存储器的256位AMBA5 AXI接口。L2缓存和L2 TLB可在Cortex-A320 CPU之间共享,而矢量处理单元可在单核复合体中专用,也可在双核或四核实现中在两个核之间共享。

应用方面,从入门级通用MPU、智能扬声器、软件定义智能摄像头,到工厂车间内的自动驾驶车辆、自动化边缘AI助手、AI人机界面和机器人控制器,Cortex-A320可在广泛的应用中发挥上述优势。除边缘AI应用外,Cortex-A320还可惠及包括智能手表和智能可穿戴设备,以及服务器基板管理控制器(BMC)等基础设施设备在内的众多关键细分市场。

Cortex-A320也非常适合于以往使用高性能Cortex-M的应用,如电池供电的MCU 用例或运行实时操作系统(RTOS)的应用,这些应用需要通过对称多处理来扩展性能,而 Arm的A处理器架构开箱即支持。

此外,它还可用于需要Cortex-A内存管理或地址转换特性的RTOS应用,以增强软件的灵活性。例如,Cortex-A320适合于需要在MCU设备上下载应用的用例,由于其需要内存管理单元(MMU)来跨内存映射进行代码重新定位。

Ethos-U85现可由Cortex-A320直接驱动

与上一代产品相比,Ethos-U85性能提升四倍,能效提高20%,同时,其 MAC 单元可从128个扩展到2048个(在1GHz时,算力实现4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。

对Transformer架构和DeeplabV3语义分割网络的原生硬件支持,是Ethos-U85的一大亮点。同时,Ethos-U85也支持元素级算子链化。通过链化将元素级运算与先前的运算相结合,使SRAM不必先写入再读取中间张量。由此可凭借NPU和内存之间数据传输量的减少,提高NPU的效率。

目前,Ethos-U85驱动程序已完成更新,该NPU现可直接由Cortex-A320驱动,而无需额外搭载Cortex-M。这一更新降低了延迟,并使 Arm 的合作伙伴可以去掉用于驱动AI加速器的额外控制器,从而降低成本和系统复杂性。

智能手机服务器市场Arm Kleidi扩展到物联网

考虑到当前边缘AI普及面临的最主要障碍之一是软件开发和部署的复杂性,Arm现已将Arm Kleidi扩展到物联网,这是一套面向AI框架开发者的计算库,旨在优化基于Arm CPU的AI和ML工作负载,无需开发者额外操作。

作为Armv9边缘AI计算平台软件生态系统发挥优势的关键所在,KleidiAI已集成到主流AI框架中,如Llama.cpp、ExecuTorch或LiteRT(通过XNNPACK),加速了Meta Llama 3和Phi-3等关键模型的性能。例如,在Llama.cpp上运行微软的Tiny Stories数据集时,KleidiAI为新的Cortex-A320带来了高达70%的性能提升。

这种可扩展性的优势是显而易见的,因为开发者能够借此打造可随需求变化而灵活调整的解决方案。借助庞大的Armv9生态系统,以及与Linux等功能丰富的操作系统和Zephyr等实时操作系统的兼容性,开发者可以充分利用现有的工具和知识,以及软件复用的优势,从而加快产品上市时间,并降低总体拥有成本。

展望未来

显而易见,AI的未来趋势将转向边缘,而此次发布的全新Arm边缘AI计算平台将成为新一轮物联网创新的催化剂。Armv9架构的特性、先进的AI功能和全面软件支持的结合,为OEM厂商和开发者创造了新的可能性。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
该芯片集成 5900 个晶体管,突破二维半导体电子学工程化瓶颈,不但实现国际上二维逻辑芯片最大规模验证纪录,还具备单级高增益和关态超低漏电等优异性能,达到国际同期最优水平。
经过了2023、2024两年的半导体下行周期后,MCU已经几乎“触底”了,2025年我们理应期待一下反弹。
通过收购锐成芯微,概伦电子可快速切入高毛利的IP授权市场,优化收入结构。
RISC-V今年生态发展水平如何?来看一组数据和一个具体的CPU IP...
Chiplet技术作为后摩尔时代突破性能瓶颈的关键路径,正加速从概念走向规模化应用。在这个过程中,各类设计验证工具也针对AI芯片特性迎来的全面升级,但要实现动Chiplet向“即插即用”生态演进,还有一系列难题需要解决……
2025中国IC领袖峰会以“观沧海风云,磨芯剑锋芒”为主题,围绕AI、EDA工具、RISC-V等芯片设计热点话题,邀请了全球芯片设计产业链代表性企业探讨和分享了产业前沿的最新技术和行业最新的发展趋势。
Silicon Labs(芯科科技)和Arduino宣布建立合作伙伴关系,旨在通过Arduino Nano Matter开发板(基于芯科科技的MGM240系列多协议无线模块)的两阶段合作来简化Matter协议的设计和应用
随着数据中心耗电量急剧增加,行业更迫切地需要能够高效转换电力的功率半导体。
Keysight AI(KAI)系列端到端解决方案,旨在帮助客户通过使用真实世界的AI工作负载仿真,从而验证AI集群组件来扩展数据中心的AI处理能力。
Diodes首次推出先进的锑化铟(InSb)霍尔器件传感器系列,可检测旋转速度和测量电流,适用于笔记本电脑、手机、游戏手柄等消费产品应用,以及各种家电中的电机。
在通信的世界里,有一种神奇的“魔法”叫做SDN(Software Defined Network,软件定义网络)。它就像是一位高明的指挥家,让原本错综复杂的网络变得井然有序,高效运行。然而,对于许多人
欢迎下周五来深入聊聊低空经济的投资机会、落地机会,产业链哪些环节已经成熟?哪些环节还有提升空间?欢迎深入交流,文末报名。低空经济作为国家战略新兴产业,近年快速发展,2025年市场规模预计达1.5万亿元
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,4月9日,据保时捷公布的2025年第一季度交付报告显示,其全球交付量同比下降了8%,而在中国市场,这一跌幅更是扩大至42%,几乎创下近十年来
2025年4月9日至11日,以“科技引领,“圳”聚创新”为主题的第十三届中国电子信息博览会(CITE2025)在深圳会展中心盛大举办。作为国内知名的液晶显示面板高新技术企业,龙腾光电已连续十三年受邀参
美光科技启动 “关税附加费” 征收计划,全球存储产业震荡2025 年 4 月 9 日凌晨,美国存储芯片巨头美光科技正式对美国客户征收 “关税附加费”。这源于特朗普政府 2 月推行的 “对等关税” 政策
大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。本系列将带来FPGA的系统性学习,从最基
点击上方“C语言与CPP编程”,选择“关注/置顶/星标公众号”干货福利,第一时间送达!最近有小伙伴说没有收到当天的文章推送,这是因为微信更改了推送机制,导致没有星标公众号的小伙伴刷不到当天推送的文章,
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,4月9日,最高人民检察院通报,安徽江淮汽车集团控股有限公司原党委委员、副总经理王志远涉嫌受贿一案,由安徽省监察委员会调查终结,移送检察机关审
点击左上角“锂电联盟会长”,即可关注!2025年4月7日晚间,宁德时代(股票代码:300750)发布公告,宣布了一项重磅的股份回购计划。公司拟使用不低于40亿元且不超过80亿元的自有或自筹资金,通过集
为深入贯彻落实《广东省关于人工智能赋能千行百业的若干措施》(粤办函〔2024〕88号)要求,加快推动智能产业化、产业智能化,我厅组织开展了人工智能终端产品、行业大模型和应用解决方案征集工作,经过单位申