作为全面计算解决方案(Total Compute Solutions, TCS)的直接继任者,Arm日前宣布推出包括最新的Armv9 CPU、Arm Immortalis™ GPU、基于3纳米工艺生产就绪的CPU和GPU物理实现、CoreLink™系统互连和系统内存管理单元(SMMU)在内的Arm终端计算子系统(CSS for Client,以下简称“终端CSS”)。此外,同步推出包含KleidiAI和KleidiCV的Arm Kleidi,助力软件开发者无缝取得 Arm CPU 上的最佳性能。
Arm终端事业部产品管理副总裁James McNiven解释说,终端CSS与TCS计算平台的主要不同之处在于,这是Arm首次在终端领域以Arm CPU和GPU的优化设计形式提供3纳米的物理实现解决方案,这一举措让构建和部署基于Arm架构的解决方案变得更加简单,更加万无一失。
Arm终端事业部产品管理副总裁James McNiven
CSS,新的TCS
先简单回顾一下Arm TCS平台的发展历程:
TCS是Arm在2019年提出的战略,旨在解决单个IP与碎片化解决方案优化问题时面临的重大挑战。意味着Arm将关注焦点从单一的产品演进,转化为以应用场景与体验为导向的系统解决方案,要对硬件IP、物理IP、软件、工具、以及彼此间的协作进行全面优化。
在该战略的引领下,面向移动计算领域,2021年,Arm一次性推出三款Armv9架构CPU核(旗舰级Cortex-X2/大核CPU Cortex-A710/高效率小核Cortex-A510);面向细分市场的新款Arm Mali GPU套件(Mali-G710/G610/G510/G310);以及提升系统性能的互连技术(CoreLink CI-700一致性互连技术和CoreLink NI-700片上网络互连技术)。
2022年推出的TCS22包括了第二代基于Armv9架构的CPU IP—Arm Cortex-X3、Arm Cortex-A715,并增强了Arm Cortex-A510和改善了DSU-110。此外,在GPU方面,除了发布Mali-G715和Mali-G615以外,Arm还同时推出了全新旗舰级GPU产品Arm Immortalis-G715,这是首款可在移动端支持基于硬件的光线追踪的GPU,可提供更为真实的沉浸式游戏体验。
在TCS23中,我们则看到了采用全新第五代GPU架构的Arm Mali-G720、Mali-G620、Immortalis-G720;全新的Armv9 Cortex CPU计算集群—Cortex-X4、Cortex-A720和Cortex-A520;以及可为数百万Arm 开发者提供更易访问软件的全新增强技术—Arm NN和Arm Compute Library。
但进入2024年,Arm没有继续沿用TCS24,在最强性能内核的命名上也没有按照诸如“Cortex-X5”的规则进行,取而代之的是“Arm终端CSS”和“Cortex-X925”这样的表述。后者的命名改变是Arm方面想以此来清楚呈现其对比前几代产品的同比性能提升达到显著跃升。
终端CSS是一个综合的计算平台,集成了硬件、软件和工具,以优化终端设备的性能和效率。主要特点之一是将CPU和GPU进行物理实现并与Armv9.2架构的AI优势结合在一起。作为面向未来十年计算的基础,2021年推出的Armv9架构在过去几年中得到了显著提升,包括:提高在矢量加速、机器学习(ML)等领域的计算能力;增强的系统安全性和稳健性;增强的AI功能。
强大的可扩展性是终端CSS的第二个特点,可为各种设备提供无缝的计算体验,例如移动设备和笔记本电脑。该平台旨在适应不同的设备外形和性能要求,适合多种任务和应用。无论是高端游戏、专业内容创作还是日常生产力任务,CSS 都可以根据各种用例的需求进行定制。
Arm终端CSS平台代表着IP设计和架构改进方面迈出了重要一步,在性能和效率方面提供了多项重大改进。随着第二代Armv9.2 Cortex CPU集群的推出,包括新的Cortex-X925、Cortex-A725和更新的Cortex-A520内核,CSS平台旨在为合作伙伴提供极致的移动计算性能。
此外,CSS平台还包括适用于Android的全面参考软件堆栈、由新的Arm Kleidi软件(KleidiAI和KleidiCV)支持的优化AI,以及通过Arm Performance Studio提供的强大工具环境,这种典型的整体方法可确保Arm的物理实现达到3.6GHz以上的速度,并在3nm节点上提供最佳的功率、性能和面积(PPA)指标。
全面转向3纳米工艺技术
作为迄今性能最强、效率最高、功能最广泛的Arm计算平台,Arm终端CSS提升了30%以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时也提高了59%的AI推理速度,适用于更广泛的AI/机器学习(ML)和计算视觉工作负载。
新的Arm Cortex-X925 实现了Cortex-X系列推出以来最高的同比性能提升。该CPU利用了领先的3纳米工艺节点,在3.8GHz的时钟速率和最大缓存大小的条件下,与2023年旗舰智能手机的4纳米SoC相比,其单线程性能大幅提高36%。而在AI性能方面,Cortex-X925取得了41%的性能提升,可显著提高如大语言模型(LLM)等设备端生成式AI的响应能力。
为了确保内核可以快速获取和解码指令,从而最大限度地减少延迟并最大限度地提高性能,Cortex-X925在微架构方面也做出了较大改变,例如10宽度的解码和调度宽度、L1指令缓存带宽增加了2倍、以及高度先进的分支预测单元等,都大大增加了每个周期处理的指令数量,使内核能够同时执行更多指令,从而提高执行单元的利用率和整体吞吐量。
与 Cortex-A720 相比,新的Arm Cortex-A725 CPU将针对AI和手游用例的性能效率提高了35%。这一改进也得益于更新后的Arm Cortex-A520 CPU和更新后的DSU-120,使得采用最新Armv9 CPU集群的消费电子设备可提升能效和可扩展性。
新的Arm Immortalis-G925 GPU是Arm性能最强、效率最高的GPU,在各款领先的手游应用中实现了37%的性能提升,并在多个AI和ML网络上提升了34%的性能,其光线追踪技术在面对复杂物体时的性能表现提升高达52%。目标市场方面,Immortalis-G925面向旗舰智能手机市场,而包括 Arm Mali™-G725和Mali-G625 GPU在内的全新高可扩展性GPU系列,则面向从高端手机到智能手表和XR可穿戴设备等广泛的消费电子设备市场。
在谈到3nm工艺带来的技术挑战时,James McNiven表示,随着工艺节点变得越来越小,为了达到最佳性能和效率的平衡,IP设计人员需要持续将性能、功耗和面积(PPA)最大化,并关注设计中的关键路径,还要通过底层的基础工艺技术来突破设计极限,这需要大量的工程投入。同时,与代工厂合作伙伴保持密切合作,倾听他们对工艺、设计和基础构建块的反馈意见,并且与之分享Arm在使用其工艺之后的经验,也是至关重要的。
与操作系统实现更大范围的集成
除了通过终端CSS推动性能和效率提升之外,为每一位安卓设备用户提高使用体验也被放在了突出的位置上。例如,在Cortex-X925带来30%性能提升的基础上,Arm对网页浏览器进行了改进,使其性能提高了23%,除了Chrome,中国的手机厂商也将这些改进引入到其浏览器中。
与此同时,Arm继续携手Google推动其安卓动态性能框架(Android Dynamic Performance Framework)发展。测试数据显示,在最新版本的框架中,高端内容的每帧能耗降低了25%,帧速率则提高了35%;针对Google AV1视频编解码器进行软件优化后,安卓设备的视频性能最多可提高40%。此外,通过调整安卓工作负载在不同CPU核心之间的平衡方式,从而为YouTube节省了高达10%的功耗。
安全方面,Arm的内存标记扩展(Memory Tagging Extension, MTE)和机密计算架构 (Confidential Compute Architecture, CCA)是改进后的Armv9.2系列的主要亮点之一。MTE可帮助开发者在无需侵入式检测的情况下查找和修复代码中的错误,也可在实际操作环境下用来减少安全漏洞被利用。目前,vivo X100、X100 Pro以及Google Pixel 8旗舰设备都允许用户启用MTE。
James McNiven特别强调了Windows on Arm(WoA)生态系统近期取得的一系列进展。首先是通过与微软合作,使得Arm面向Windows的Performance Libraries(Arm性能库)得以发布,它们面向Windows系统优化运算例程,进而使开发者能提升WoA应用的性能
其次,除了我们日常熟知的Microsoft Office、Dropbox、Zoom、Adobe套件外,百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等都已成为Arm原生应用。尤其是许多针对创作者的开源工具,例如最近新增的Audacity、Blender和OBS Studio(用于流媒体),都整合了大量的开源库和开发者工具,让应用更易于落地为Arm原生应用。
好硬件,更需要好的软件
为了使开发者能够以最高性能快速实现这些创新,尤其是确保高效的AI处理,Arm还推出了Arm Kleidi,其中包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。Kleidi一词来源于希腊语,意为“钥匙”,意为开发者释放更多性能的钥匙。
KleidiAI是一套面向AI框架开发者的计算内核,使他们能够在各种设备上轻松获得 Arm CPU上的最佳性能,并支持Neon、SVE2和SME2等关键Arm架构功能。KleidiAI与PyTorch、Tensorflow、MediaPipe等热门AI框架集成,旨在加速Meta Llama 3、Phi-3等关键模型的性能,并且还可前后兼容,以确保Arm在引入更多技术时依然能适用未来市场的需求。
KleidiCV 则针对计算机视觉工作负载,该库为图像处理、对象检测和场景识别等任务提供了优化的功能。将KleidiCV与Arm架构集成可确保应用程序能够快速高效地处理视觉数据,使其成为增强现实、自动驾驶汽车和智能监控系统的理想选择。通过利用这些优化的软件库,开发人员可以构建在基于Arm架构的硬件上流畅运行的复杂应用程序,充分利用3nm工艺技术带来的性能和能效改进。
除了Kleidi 库之外,Arm还提供了一套强大的开发工具和平台。终端CSS平台包括参考软件堆栈和性能优化工具,如 Arm Performance Studio,它提供有关应用程序性能的详细见解,并帮助开发人员微调其软件以实现最高效率。这个全面的支持系统确保开发人员能够快速有效地将创新应用程序推向市场,充分利用Arm最新的架构进步。
结语
Arm将其所有最新CPU设计都转向3nm工艺技术,并对Cortex-X925和Cortex-A725内核进行改进,表明其战略重点是优化现有架构,确保新设备在处理苛刻要求的应用程序的同时,能够大幅改进效率和性能,为更强大、更高效、更智能的设备以及未来的AI时代铺平道路。
vivo首席芯片规划专家夏晓菲也表示,2023年vivo X100手机上发布了蓝晶芯片技术栈,和合作伙伴MediaTek一起探索了全大核架构的使用,这个背后也把Arm在CPU上面针对实际应用提升部分的性能充分地发挥出来,这是Arm微架构提升带来的价值。相信大家会看到Arm CSS里面集成更多更强大的AI能力,同时提供一个更加广泛的针对开发者的开发环境,能够让所有的开发者基于通用平台开发出自己基于端侧的生成式AI应用和体验。也会看到越来越多vivo和Arm的合作成果!