Arm推出Ethos-U85\u2002NPU和Corstone-320,助力边缘AI芯片创新设计

EETOP 2024-04-23 07:23

随着 Transformer 与大模型的发展,以及生成式 AI 崛起,AI 模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上用户体验的持续提升、数据量激增,以及企业对数据价值的认可,边缘AI行业正经历巨大变化。大小模型云边端结合成为未来 AI 产品的重要发展趋势,也是 AI 应用赋能行业发展的重要方向。


边缘 AI 的重要特点就是节省带宽、更具安全性、减少数据传输、提高响应速度和可靠性。近来,随着低功耗的 AI 加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。边缘AI为物联网发展带来了前所未有的发展机遇,但同时也面临一些设计上的挑战,就是对能效和成本方面有比较严格的限制。



软硬件协同才能释放AI最大潜能


在设计边缘 AI 芯片和系统时,需要在计算能力和能效之间找到合适的平衡。高性能的处理能力往往伴随着更高的功耗,而边缘设备往往对功耗和成本都有着严格限制。与此同时,随着越来越多的数据在边缘被处理,数据安全和隐私保护变得尤为重要。这要求芯片设计必须包含加密和安全功能。

传统物联网市场存在碎片化,为了更好地统一多样化的应用要求,达到规模化效益,软件定义和适于软件移植的标准更是必不可少。此外,系统变得愈加强大,其复杂度也随之提升。软硬件必须协同工作才能释放 AI 处理的最大潜能。

随着边缘AI的部署规模持续扩大,芯片创新者必须应对日趋复杂的系统和软件、不断激增的 AI 性能需求,以及加速产品上市进程的压力。与此同时,软件开发者需要更加一致、简化的开发体验,并能更轻松地与新型的 AI 框架和库实现集成。Arm 物联网事业部业务拓展副总裁马健表示:“Arm坚信, AI 需要硬件和软件之间的紧密结合。边缘 AI 潜力巨大,有望助力多个领域的持续智能化演进与转型。

近日,Arm 推出迄今性能最高且能效最佳的 Ethos NPU 产品Ethos-U85神经网络处理器 (NPU) 。与上一代产品相比,Ethos-U85性能提升四倍,能效提高 20%。与此同时,Arm还推出了全新物联网参考设计平台——Arm Corstone-320, 集成了前沿的嵌入式 IP 和虚拟硬件,可加速语音、音频和视觉系统的部署。 

全新的 Ethos-U85 和 Corstone-320 参考设计平台,满足了边缘 AI 用例对更高性能计算的需求,为最新的 AI 模型、框架提供了原生支持,并沿用 Arm 软件与 AI 开发者已经熟知的工具链,具有投资复用、上手容易等优势。

Arm Ethos-U NPU

边缘 AI 用例日趋复杂,想要把握 AI 时代的机遇离不开安全、高性能的计算系统。Arm Ethos-U NPU系列是业界首款 AI 微加速器。据介绍,迄今,Arm Ethos NPU 系列产品已有逾 20 家授权许可合作伙伴,包括英飞凌、恩智浦半导体、奇景光电 (Himax)、Alif Semiconductor 和 Synaptics 等领先企业均已推出搭载 Ethos-U 的量产芯片。其中,Alif Semiconductor 和英飞凌是全新 Arm Ethos-U85 NPU 的早期采用者。

Ethos-U85 专为与 Arm 领先的 Armv9 Cortex-A CPU 相结合而设计,以加速处理机器学习 (ML) 任务,并为更广泛的更高性能设备提供高能效的边缘推理能力。其 MAC 单元可从 128 个扩展到 2048 个,在最高性能配置下提供 4TOPs 的 AI 算力,以可持续的方式支持未来的应用场景,并提供了与前几代Ethos U产品相同的一致工具链,达到无缝的开发者体验。

Arm Ethos-U85 提供卓越的神经网络加速功能

此外,Ethos-U85 NPU 支持 TensorFlow Lite 和 PyTorch 等 AI 框架,支持 Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。Transformer 在视觉和生成式 AI 用例中,比如视频理解、图文结合,图像增强与生成、图像分类和目标检测等方面都极有价值。Transformer 架构网络的注意力机制容易利用并行计算来实现,提高硬件使用效率,使得这些模型能够部署在计算资源有限的边缘设备上。开发者可以通过选用针对 Transformer 架构网络优化的设计,发掘边缘 AI 的新机遇,使这些应用享有更快的推理、更优化的模型性能和可扩展性。

新一代边缘 AI 应用的 ML 工作负载需要以节能的方式提供高性能表现。Ethos-U85 不仅支持低功耗 MCU 系统中的 AI 加速。在高性能边缘计算系统中,Ethos-U85 也能够很好地支持。马健分享说:“加之我们领先的 Armv9 Cortex-A CPU,将为基于应用处理器的智能物联网平台上运行的 AI 任务实现加速。这将使 Ethos-U85 能够在工业机器视觉、边缘网关、可穿戴设备和消费类机器人等应用中,带来高效能的边缘推理。“

相较于此前的 AI 技术,大模型和生成式 AI 最大的优势是泛化能力,及对多模态的支持。例如对图像生成、图像分割等多种用例的泛化、普遍性的支持。另外,大模型和多模态的优势是微调时间,用比较少的新样本进行模型的重新训练和微调,使这些模型很快适应之前没有看到过的新环境。例如智能家居的一些用例,已经从单一模型支持不同的传感器,到统一模型支持各种不同的多模态传感器的输入。

这种多模态 AI 以及未来自然语言的交互都需要大模型和多模态的支持,同时也对 AI 的算力提出了更高的要求。Ethos-U85 NPU AI 加速器正是基于这一趋势而发布的。马健分享到:“我们认为只有普适性的通用计算平台才可能达到规模化,进而更好地实现丰富的软件支持。期待未来通过大模型和多模态,物联网碎片化问题可以得到更好的改进,AI 会从一个单一功能到多功能,甚至是向通用 AI 的方向演进。

Arm Corstone-320

在万物智能的驱动下,无处不在的 MCU 和嵌入式系统对性能和 AI 加速的需求与日俱增。顺应这一趋势, 针对实际工作负载,Arm 特推出了全新的智能物联网参考设计平台Arm Corstone-320。它集成了 Arm 最高性能的嵌入式处理器 Cortex-M CPU——Cortex-M85、全新的 Ethos-U85 NPU AI 加速器,以及以实现为视觉应用优化的低功耗系统 Arm Mali-C55 ISP。

Corstone-320 不仅仅提供芯片计算子系统 IP 组合,还附带了软件、AI 模型库和开发工具,以实现软件的复用。其参考用例包括部署在智能家居中的电池供电摄像系统,在工业和零售系统中的低帧率网络摄像头,以及提供了有安全保证的软硬件组合。基于这种特性,将使开发者能够在物理芯片就绪前便启动软件开发工作,从而加速推进产品进程,为日益复杂的边缘 AI 设备缩短上市时间。

此外,Arm 在发布每款参考设计的同时,也会提供相应的 Arm虚拟硬件,虚拟硬件是对参考设计 IP 组合子系统的一个仿真。仿真可以在子系统的芯片就绪之前,就启动在云端仿真平台上的 AI 和 ML 以及应用的开发。为了支持中国广大的物联网嵌入式开发者,Arm 将虚拟硬件落地在了百度云上,正在实现与百度 BML 和 EasyDL 工具链的组合,使基于 Arm 技术的 AI 开发可以在百度飞桨 (PaddlePaddle)进行,且实现软硬件协同开发,即在基于 Arm 最新 IP 量产芯片就绪之前,就可以预先做软件应用的开发,以及 AI/ML 算法的开发和优化。

马健表示:所有这些努力都是使生态能够更加统一,使技术能够更加标准化,最终目的是使 AI 和软件开发者能够更便利地基于 Arm 架构、从云、边、端打造统一的计算平台,迅速地开发出所期望的新应用。

结束语


边缘 AI 的演进历史可以追溯到早期嵌入式系统,比如家用空调、电表等设备都会内置嵌入式处理器,从而实现控制和设备管理等简单功能马健认为,当前,边缘 AI 的广泛部署已趋向成熟,发展在中国市场尤为迅速。


未来,AI 模型就像一个家庭“大脑”,可以综合家里各类传感器、摄像头,以及外部天气、家人喜好、自然语言命令等多种输入,更安全、更节能地营造个性化的家居环境。AI 和大模型将使零售业变得更加智能化、个性化和自动化。通过个性化购物体验、智能库存管理、动态定价策略、线上线下无缝整合,以及自动化运营等,带来更高的效率和更卓越的客户体验。AI 和大模型还有望推动工业 4.0 向工业 5.0 的转变,实现智能化生产线、精准的质量控制、个性化定制生产、供应链优化、自主维护与远程监控、人机协作、节能减排,以及新材料和工艺的开发等,为制造业带来一场深刻的变革。


随着边缘 AI 的持续发展,Arm 始终处于推动市场和技术进步的核心地位。目前,基于Arm架构 的芯片出货量已达 2800 亿颗,全球范围内有 1000 多个生态系统合作伙伴及 1500 万 Arm 生态开发者。


马健总结说:“Arm 在 IP、参考设计和软件标准上持续投入,从而帮助整个边缘 AI 生态应对来自算力、能效、安全以及市场碎片化等方面的挑战。目前,全球约有 90% 的 AI 都运行在基于 Arm 架构的 CPU 上,这些持续投入使 Arm 成为全球最普遍的 AI 计算平台之一。但,我们不会止步于此。Arm 将与生态伙伴们砥砺奋进,释放前所未有的 AI 潜力。”

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 118浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 91浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 93浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 59浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 75浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 107浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 86浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 66浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 88浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 53浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 118浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 174浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 97浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦