Arm Ethos™-U85 NPU和Corstone™-320的推出,不但使得Arm物联网全面解决方案的阵容再度得到扩充,也让其生态合作伙伴在面对来自物联网与大模型、多模态AI结合的性能与效率极限挑战时,更加从容。

物联网的兴起极大推动了边缘计算设备的普及,随着机器学习(ML)和人工智能(AI)技术的发展,这些系统不仅具备更强的处理能力和连接性,还能够自我学习和适应。近年来,Transformer与大模型的发展又让AI模型的普适性、多模态支持,以及模型微调效率有了质的突破,加上低功耗的AI加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。

为了迎合上述趋势,并解决物联网领域普遍存在的“产品设计缓慢”、“软件开发效率低下”和“缺乏规模化”等问题,Arm早在2021年10月就推出了由Arm Corstone、Arm虚拟硬件和Project Centauri三部分组成的Arm物联网全面解决方案(Arm Total Solutions for IoT),目标是实现“软件与硬件在系统层面的共同设计”。

其第一套解决方案结合了Arm Corstone-300子系统、Cortex® -M55处理器和Arm Ethos™-U55神经网络处理器,主要针对通用计算与机器学习类应用中基于机器学习的关键词辨识按照。半年后的2022年4月,Arm又陆续推出了基于Corstone-1000的云原生边缘设备全面解决方案,以及基于Corstone-310子系统的语音识别全面解决方案。2023年,Arm首次将现有子系统IP与第三方IP整合,并由安谋科技预先集成和预先验证,推出面向中国市场的Arm智能视觉参考设计。

Arm物联网事业部业务拓展副总裁马健日前在接受媒体采访时指出,系统越强大,复杂度也越高,软硬件必须协同工作才能释放AI处理的最大潜能。而且,大模型在边缘AI侧落地也并非想象中这么简单,模型的成熟度、边缘AI平台的开发、整个生态链以及对大模型量化并在边缘部署的工具链支持,是其面临的主要挑战。

为此,Arm日前宣布推出Arm迄今性能最高且能效最佳的Ethos™-U85神经网络处理器(NPU),以及全新物联网参考设计平台——Arm Corstone™-320,以加速实现语音、音频和视觉系统的部署,这也使得Arm物联网全面解决方案的阵容再度得到扩充。

Ethos™-U85性能提升4倍,全面支持Transformer架构

与部署在基于Cortex®-M异构系统中的Ethos-U55,以及将Ethos-U系列的适用性扩展到基于Cortex-A系统中的Ethos-U65不同,全新的Ethos-U85将性能提升了四倍,能效提高20%。同时,其MAC单元可从128个扩展到2048个(在1GHz时,算力实现4TOPs),能够为工厂自动化、商用或智能家居摄像头等需要更高性能的应用提供有力的支持。

Arm Ethos-U85 提供卓越的神经网络加速功能

对Transformer架构和DeeplabV3语义分割网络的原生硬件支持,是Ethos-U85的最大亮点之一。众所周知,于2017年问世的Transformer架构彻底改变了生成式AI,正成为许多新型神经网络的首选架构。基于Transformer架构的模型可利用注意力机制处理序列数据,并在机器翻译、自然语言理解、语音识别、分割和图像字幕生成等多项AI任务中实现优异的效果。这些模型可被调整和压缩,在不过多影响准确度的情况下,能高效运行于边缘设备上,并在许多边缘侧和端侧用例中发挥领先的优势。

同时,Ethos-U85也支持元素级算子链化。通过链化将元素级运算与先前的运算相结合,使 SRAM不必先写入再读取中间张量。由此可凭借NPU和内存之间数据传输量的减少,提高NPU的效率。相比于Ethos-U65,链化是Ethos-U85在效率提升上的新功能之一,其余还包括快速的权重编码器、优化的MAC阵列能效,以及提升的元素效率。

为了确保合作伙伴能够利用现有的投资,达到无缝的开发者体验,Ethos-/U55/U65/U85这三款产品均提供统一的工具链,可简化开发并支持常见的ML神经网络运算,包括卷积神经网络(CNN)和循环神经网络(RNN)。

Corstone-320加速语音、音频和视觉物联网系统的部署 

作为Arm物联网全面解决方案的核心之一,Arm Corstone是一套经过验证且预先集成的IP子系统,可以让开发者专注在真正重要的部分,也就是跨不同应用和设备的创新与差异化上。

最新的Corstone-320集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali™-C55 ISP和全新的Ethos-U85 NPU,能够为语音、音频和视觉等广泛的边缘AI应用提供所需的性能,例如实时图像分类和目标识别,或在智能音箱上启用具有自然语言翻译功能的语音助手。

Arm助力加速边缘AI设备部署进程

采用Arm8.1-M架构的Arm Cortex-M85是迄今为止性能最强的Cortex-M处理器。与Cortex-M7相比,其标量性能提升了30%;与Cortex-M55相比,性能提高了85%,而Arm Helium™矢量扩展技术可支持终端ML和DSP工作负载的性能提升。尤其值得关注的,是其搭载的指针认证和分支目标识别(Pointer Authentication and Branch Target Identification, PACBTI)功能,具备增强的软件攻击威胁缓解能力,有助于实现物联网部署的安全基线PSA Certified Level 2认证。

Mali-C55集成了高分辨率图像处理能力(可支持4800万像素的图像分辨率)、能效、可配置性及无与伦比的图像质量,适用于广泛的物联网视觉应用。同时,高度可配置的直接内存访问控制器DMA-350,可实现高效的数据移动,从而提高系统性能和能效,并支持Arm TrustZone技术。

与此前推出的物联网参考设计一致,Corstone-320软件套件包括固件、所有IP的驱动程序、中间件、实时操作系统(RTOS)和云集成、ML模型和参考应用程序。这意味着软件开发者能够轻松选择其特定细分市场所需的组件,并使用所选开发工具为该设备构建物联网堆栈。

与此同时,Corstone-320中包含的原型平台能使软件开发与SoC设计并行启动,开源应用程序演示了关键词识别、语音识别和目标识别用例,固定虚拟平台(FVP)用于对构成完整FPGA系统的外设进行建模。通过使用FVP,软件开发者无需硬件即可开始开发应用,从而加快开发速度。

马健介绍说,全新参考设计是针对实际工作负载开发的,参考用例包括部署在智能家居中的电池供电摄像系统,以及在工业和零售系统中的低帧率网络摄像头。同时,Corstone-320 参考设计提供了有安全保证的软硬件组合,使得在此参考设计基础上开发的合作伙伴们能够顺利地通过 PSA Certified Level 2 认证,实现对区域和全球安全标准的合规。Arm希望通过Corstone-320预先集成、预先验证的参考设计模版,帮助合作伙伴减少边缘智能芯片开发的成本和时间。

打造基于Arm平台的AI软件生态系统

在马健看来,未来,AI模型就像一个“大脑”,可以综合各类传感器、摄像头,以及外部天气、消费者喜好、自然语言命令等多种输入,更安全、更节能地营造个性化的应用场景。

例如,通过个性化购物体验、智能库存管理、动态定价策略、线上线下无缝整合,以及自动化运营等,AI和大模型将使零售业变得更加智能化、个性化和自动化,带来更高的效率和更卓越的客户体验。在工业领域,AI和大模型还有望推动工业从4.0向5.0的转变,实现智能化生产线、精准的质量控制、个性化定制生产、供应链优化、自主维护与远程监控、人机协作、节能减排,以及新材料和工艺的开发等,为制造业带来一场深刻的变革。

但边缘AI在带来机遇的同时也带来了挑战。因为在设计边缘AI芯片和系统时,不但需要在计算能力、能效和成本之间找到合适的平衡,还要求出色的加密和安全功能。同时,为了更好地统一多样化应用要求,达到规模化效益,软件定义和适于软件移植的标准更是必不可少。

此外,随着大模型持续通过量化、剪枝和聚类技术来缩减优化模型,使之更适于在边缘和超级终端设备部署,大小模型云边端结合正成为未来AI产品的重要发展趋势。如何面对来自物联网与大模型、多模态AI结合的性能与效率极限?如何打造一致性的工具链和开发平台?如何让物联网生态链上下游的芯片与系统供应商、算法软件开发者与集成商们越来越汇聚在Arm计算平台?是Arm正在思考和布局的重点。

“只有Arm计算平台才能提供AI从云到端、现代敏捷开发和部署流程中所需的特性和功能,实现基于量产验证的一致架构,并采用统一工具链的AI转型。”马健强调称,从Arm的角度来说,只要做好三件事:专注打造最优秀的产品,让产品更加易用,持续打造强大的生态系统,整个行业就能够以互相合作的方式来共同前进,在这种力量的带动下,Arm也会取得更大的成功。

基于Arm平台的AI软件生态系统

目前,相当多的AI研究开发社区不仅持续受益于Arm生态系统与合作伙伴提供的丰富信息与知识,也围绕Arm计算平台构建日益增长的软件和工具生态系统,以及开源软件库和AI框架。比如PyTorch基金会投资边缘AI,发布针对移动和边缘设备推理工具包ExecuTorch,提供了轻量级运行时(Runtime)和算子注册表,覆盖了PyTorch生态系统中的各类模型。

此外,由于Arm特有的IP授权许可模式和开放生态,OEM和ODM可以有多种基于Arm架构和计算平台的芯片与模组选择,更灵活地开发适于最终应用的系统方案。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
尽管思瑞浦在模拟混合信号设计方面拥有丰富经验,其MCU产品在市场上的表现并不理想。究其原因,是因为国内MCU领域竞争已经非常激烈,产品同质化严重,企业之间的竞争主要集中在性价比上,导致利润空间被严重压缩。
随着工艺技术的发展放缓而晶体管数量增加,芯片开发变得越来越困难。Synopsys选择了收购设计分析和仿真巨头Ansys,此后,拥有管理和优化 EDA 计算环境所需所有工具的Altair,成为了最后一个可以挑战 Ansys 而不受约束的玩家。如今,花落西门子……
具体来说,对于涉及某些先进集成电路设计或制造、超级计算机、量子计算机及其关键部件、以及特定用途的AI系统的交易,美国将采取禁止或要求通报的措施。
据悉,商汤科技的芯片业务最早在今年5月份就传出了独立的消息。当时,有知情人士表示,商汤科技正在积极引入外部投资者,以推动芯片业务的独立发展。如今,这一计划已经取得了实质性的进展,芯片业务不仅成功引入了外部投资者,还完成了数额庞大的融资。
据悉,该芯片具有卓越的性能指标和广泛的应用前景。其对X/γ射线剂量率的量程覆盖广泛,从100nSv/h(纳西弗/每小时)到10mSv/h(毫西弗/每小时),可探测的能量范围则在……
随着AI和HPC芯片需求的不断增加,半导体产业在不断挑战性能极限的同时,也面对着传统封装技术的限制。为了延续摩尔定律,先进封装成为满足这些新兴应用需求的核心策略。
微电子和软件技术的快速发展正在深刻地改变车载娱乐中控和安全系统设计,重新定义驾驶体验。
本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了在FPGA上使用硅知识产权(IP)内核来开发ASIC原型项目时,必须认真考虑的一些问题。
在即将到来的慕尼黑国际电子元器件博览会(electronica 2024)上,英飞凌科技股份公司将展示其创新的解决方案如何推动全球低碳化和数字化进程,充分展现半导体产品如何为实现净零经济铺平道路,并释放人工智能的全部潜力。
vivo旗下品牌iQOO正式发布了年度性能旗舰iQOO 13,除了高通骁龙8芯片、vivo自研的电竞芯片Q2外,最值得一提的是还采用了汇顶科技提供的多项创新技术,包括超声波指纹识别、新一代屏下光线传感器以及智能音频放大器与软件方案。
来源:《中国半导体大硅片年度报告2024》2016 年至 2023 年间,全球半导体硅片(不含 SOI)销售额从 72.09 亿美元上升至121.29 亿美元,年均复合增长率达 7.72%。2016
近日,网友爆料曾经厦门最大的宝马经销商厦门中宝已停产停工!公司通告称,由于2024年9月宝马取消了对我司的经销授权,公司面临着极其严峻的经营困境,公司的业务受到了多方面重大挑战,资金流紧张,市场环境变
本文来源:智能通信定位圈10月24日,全球领先的物联网(IoT)解决方案提供商Silicon Labs(下称“芯科科技“)在上海成功举办2024年“Works With开发者大会”。本届大会以“创新结
Oct. 31, 2024 产业洞察近年来,产业界对固态电池应用的追求与期盼加速了这项技术的商业化进程。根据TrendForce集邦咨询最新调查,丰田、日产、三星SDI等全球制造商已开始试制全固态电池
GIPHY平台于2023年被Shutterstock收购,每天触达超过10亿用户。美通社消息,作为全球最大的GIF和贴纸库,GIPHY与领先的移动短视频平台TikTok达成合作,旨在通过人工智能技术驱
论坛信息名称:2024先进封装技术与材料论坛时间:2024年12月26日地点:江苏苏州联合主办:亚化咨询日程安排12月25日16:00~20:00   会议注册12月26日09:00~12:00   
10月30日,据多家媒体报道,大运集团旗下高端新能源品牌远航汽车被自家员工曝出人员流失较为严重、延迟发放工资等情况。有自称是远航汽车研发部人士表示,底盘研发部门人员流失速度快,目前仅剩十余名员工坚守岗
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,据外媒报道,英特尔CEO基辛格上任3年,搞砸了和台积电的关系,在公司处于困境的时刻
东芝电子元件今日宣布,开始提供适用于3相直流无刷电机的栅极驱动[1]IC——“TB9084FTG”的工程样品。这款器件可用于驱动包括车身系统应用[2]、电动泵以及电机发电机[3]在内的关键车载功能。该
在人工智能、安全和互连不断发展的时代,我们为您准备了FPGA创新的最前沿资讯,助您进一步提升系统设计和开发水平。您可以在莱迪思开发者大会上探索相关趋势、挑战和机遇,发现最新的低功耗FPGA解决方案!莱