作为在思考方式上做出的重大转变,2019年,Arm提出要在共同架构下推动全面计算(Arm Total Compute)战略,旨在解决单个IP与碎片化解决方案优化问题时面临的重大挑战,并随后发布了Total Compute解决方案白皮书。这意味着,在解决系统创新设计的挑战时,Arm将关注焦点从单一的产品演进,转化为以应用场景与体验为导向的系统解决方案,要对硬件IP、物理IP、软件、工具、以及彼此间的协作进行全面优化。
在该战略的引领下,2021年,Arm一次性推出三款Armv9架构CPU核(旗舰级Cortex-X2/大核CPU Cortex-A710/高效率小核Cortex-A510);面向细分市场的新款Arm Mali GPU套件(Mali-G710/G610/G510/G310);以及提升系统性能的互连技术(CoreLink CI-700一致性互连技术和CoreLink NI-700片上网络互连技术)。
2022年推出的Arm 2022全面计算解决方案(TCS22),包括了第二代基于Armv9架构的CPU IP—Arm Cortex-X3、Arm Cortex-A715、Mali-G615,并增强了Arm Cortex-A510和改善了DSU-110。此外,Arm还同时推出了全新旗舰级GPU产品Arm Immortalis-G715,这是首款可在移动端支持基于硬件的光线追踪的GPU,可提供更为真实的沉浸式游戏体验。
而在最新推出的Arm 2023全面计算解决方案(TCS23)中,我们则看到了Arm Mali-G720、Mali-G620、采用全新第五代GPU架构的Immortalis-G720;全新的Armv9 Cortex CPU计算集群—Cortex-X4、Cortex-A720和Cortex-A520;以及可为数百万Arm 开发者提供更易访问软件的全新增强技术—Arm NN和Arm Compute Library。
打造最佳视觉体验的基石
为智能手机推出性能最优异的移动计算平台,是Arm推出TCS23的核心目标。
Arm中国区业务全球副总裁邹挺对媒体表示,当前,全世界对于移动设备的兴趣和创新需求正在持续加速提升中。最新的数据显示,2022年,手游市场创造了超过920亿美元的收入,移动应用创造了超过4,300亿美元的营收,全球每个用户平均每月流量达到19GB。与此同时,柔性显示屏和AR光学这样的新形式也开始以不同的方式进入大众视野,生成式AI及移动端大型语言模型的出现更是带来了许多新的功能,这些在几年前是根本无法想象的。
显然,对更高性能、更加智能以及更多视觉和触觉交互需求的持续飙升,带来了比以往更大,甚至更加复杂的计算需求。Arm高级副总裁兼终端事业部总经理Chris Bergey指出,虽然TCS23是Arm连续第三年在Armv9架构上实现性能双位数的提升,但这并不足够,需要对系统的深刻理解和全面优化,从而将看似独立的技术模块有机的整合在一起,实现总体性能功效的最优表现,这就是TCS的概念。
Arm中国区业务全球副总裁邹挺(左)与Arm高级副总裁兼终端事业部总经理Chris Bergey(右)
作为手机设计至关重要的组成部分,全新推出的Arm Immortalis-G720采用了全新的第五代GPU架构,该架构也是Arm迄今为止最高效的GPU架构,重新定义了部分图形管道,以优化内存带宽,从而在移动设备上支持高几何负载的下一代游戏和实时3D应用,同时带来更顺畅、并与PC端和游戏主机媲美的游戏体验。
延迟顶点着色(Deferred Vertex Shading, DVS)是第五代GPU架构新引入的图形功能,可重新定义数据流,有助于合作伙伴扩展核心数量,达到更高的性能水平,其优势目前已经在包括《原神》和《堡垒之夜》等许多流行游戏中得到体现。
数据显示,Immortalis-G720是Arm目前性能和能效表现最为出色的GPU,与上一代产品相比,其性能和能效分别提高了15%,系统级效率更跃升了40%,而面积仅增加 2%,从而带来了更高质量的图形渲染,实现更身临其境的视觉感受。
除了Immortalis-G720之外,Arm也同时推出新的Arm Mali™-G720和Mali-G620,旨在将高端移动图形功能快速地推向更广大的消费终端市场。
“对我们而言,重点是能够为平台带来越来越多的效率,并且随着人工智能、机器学习推动能效的不断提升,显然也为架构带来更多的优势。因此,这些都是我们看到的真正的机会。”Arm终端事业部产品管理高级总监Stefan Rosinger说。
领先的CPU性能助力打造生成式AI
作为TCS23的一部分,全新的Armv9 Cortex® CPU计算集群彰显了Arm对提供领先CPU性能的坚定承诺。该集群在连续三年实现两位数性能增强的同时,效率也得到显著提升。
作为第四代Cortex-X内核,新的Arm Cortex-X4是该高性能集群的关键组成部分,可突破旗舰智能手机的性能极限。Cortex-X4是Arm迄今为止打造的最快速的CPU,与Cortex-X3相比,其性能提高15%。与此同时,基于相同工艺的全新高能效微架构可降低功耗达40%,而面积仅增加了10%。这一性能和效率的提升可以将设备使用体验(如UI响应能力和应用程序启动时间)提升到一个新的水平,并让实现面向下一代人工智能和机器学习的应用成为可能。
领先的CPU性能也同时扩展至其全新大小核,即Arm Cortex-A720和Cortex-A520。Cortex-A720是业界主流CPU IP,作为新CPU集群的核心主力,可提高持续性能。而 Cortex-A520则是Arm目前最出色的高效率核心。这些全新的CPU设计较前几代产品实现了20%的能效提升,可惠及包括AAA级游戏、全天候生产力和后台任务等用例。
制程工艺和计算能力更为紧密的结合是实现最高性能和最高效设计的关键。在新一代 CPU设计中,Arm在TSMC N3E制程工艺上顺利完成了业内首个Cortex-X4流片,进一步深化了双方长期合作的伙伴关系。这项合作同时确保了Arm生态系统已做好准备,能在流片完成后,充分发挥Arm处理器技术带来的功耗、性能、面积(PPA)优势。
Arm全新CPU集群提供了合作伙伴所需的性能与效率,其中,DSU-120专为满足要求苛刻的多线程使用场景而设计,支持从可穿戴设备到智能手机、笔记本电脑的众多设备,使新的CPU集群臻于完善。
Chris Bergey强调了生成式AI给未来智能手机生态系统带来的深远影响。
“两周前,Google I/O大会重点强调将把生成式AI引入到安卓生态系统,微软Build开发者大会也在谈论将其引入Windows 11操作系统。所以很明显,生成式AI和大语言模型绝对是一个新兴领域。”他说未来将是一个“混合(Hybrid)的环境”,即大型语言模型在云端运行,但考虑到智能手机或其他计算设备上本地运行AI的隐私和能源效率等问题,用户更愿意在设备上运行较小的模型。这意味着,大语言模型将塑造计算的未来,Arm需要进一步提升AI方面的工作负载。
迈进更安全的64位时代
如前文所述,生成式人工智能等新的智能体验在过去的一年里令世界惊叹,而智能手机的人工智能处理能力也保持着每两年翻一番的节奏。作为全球开发者在为其应用程序引入AI和ML时最容易访问和锁定的平台,全球有近900万个移动开发者在基于Arm架构、且为 Arm架构应用进行开发。
例如Arm开源软件库Arm NN和Arm Compute Library,可支持开发者在Armv9 CPU和Arm GPU上优化ML工作负载的执行。自今年年初以来,已在安卓平台上面向Google应用开放,目前已拥有超一亿的日活用户,助力开发者优化运行在Armv9 CPU 和Arm GPU的机器学习工作负载。
“我们已经在纯64位之路努力多年。好消息是,迁移到64位系统的任务已经完成。”在邹挺列举的案例中,Pixel 7推出了一款纯64位应用程序的操作系统,MediaTek也推出了第一款全64位的安卓SoC,另外,据中国主流应用商店近期报告称,在前3000 款常用的应用中,纯64位系统应用的合规性接近百分之百。
他同时强调称,所有新CPU均支持64位计算和Armv9安全创新功能,能够抵御更高级别的数字威胁。毕竟,“2022 年移动应用下载量超过2,550亿次,内存安全是不容忽视的关键。”
因此,通过Armv9 CPU,Arm在整个移动生态系统中持续成功部署Arm内存标记扩展(MTE) 功能,以消除占所有软件漏洞高达70%的内存安全漏洞。手机厂商荣耀和短视频平台快手也先后宣布将向开发者提供支持MTE的设备,或是借助该技术优化改进其开发流程,为用户带来更好的使用体验。