人工智能(AI)是当今最重大的技术变革之一,并正以前所未有的速度推动着各行各业的发展。作为应用最为普及的计算架构,Arm为广泛的应用市场提供全面且多样化的计算平台,并在此基础上,携手合作伙伴,共同构筑起坚实的软硬件生态系统,使Arm成为最高效、最易访问的计算平台,持续赋能开发者进行AI创新。随着计算变得愈发复杂,计算效率的重要性更胜以往。高性能和出色能效一直是Arm的DNA,这一优势使得Arm技术能够很好地满足企业在AI时代的业务需求。
要使硬件发挥其作用,离不开软件的支持,软硬件的协同发展方能充分释放AI的性能价值。以Arm为计算基础构建的软件平台是世界上最为普适且重要的软件平台。Arm在开发计算平台的同时,也大量投入软件开发,我们的工程师团队致力于确保合作伙伴所构建的产品在部署的第一天就能带来巨大的价值。如今,我们的技术已经涵盖整个软件栈的各个层面。从底层固件和操作系统的开发,到与游戏引擎、开源社区和独立软件供应商(ISV)的战略合作,我们确保所有这些在Arm平台上都能“开机即用”。
在基础设施领域,Arm具备成熟且健全的云软件生态系统。随着超大规模云服务提供商认识到软件生态系统的进展,开始将基于Arm架构的计算平台作为一种高性能且具有成本效益的解决方案提供给第三方开发者,用于通用工作负载。云原生软件开发者正越来越多地采用基于Arm Neoverse平台的云基础设施来构建和运行他们的应用,以提高性能、效率和可持续性,并节省成本。所有主要云服务提供商也均提供基于Neoverse的云实例。在基于Arm平台部署的各种云工作负载中,客户可实现更高的性能和成本效益。
除了对云工作负载的出色支持外,Arm还投入了大量精力与汽车行业进行合作。随着软件成为车载差异化的关键因素,汽车行业面临着许多挑战。汽车软件不仅需要被快速交付,且一旦被部署在汽车上,通常需要在十年或更长时间内持续修复漏洞并增添新的功能。而这些对于云软件开发者来说已了然于心,因为大规模原型设计、测试、部署和更新软件正是现代云软件开发的关键所在。从云端到车载,Arm平台无处不在。基于Arm架构的云技术已成为汽车开发的重要部分,使合作伙伴能够在云环境中构建和测试众多的汽车软件组件。与此同时,为了进一步确保汽车软件在包括云端在内的多个平台上具有可移植性,整个生态系统的通力协作至关重要,这也是Arm在2021年牵头成立SOAFEE(面向嵌入式边缘的可扩展开放架构)的初衷。通过SOAFEE,Arm为汽车和云计算社区构建起一个共同的平台,以促进协作和测试,进而推动软件定义汽车(SDV)时代的发展。
在移动平台方面,终端用户对于包括游戏与AI应用等移动体验的极致追求为性能带来了更高的要求。而Arm持续在软件前沿领域引领移动端图形渲染技术的发展,致力于确保开发者可以轻松利用我们通过Arm Immortalis GPU带来的各种先进技术与卓越性能。而在今年稍早前,为实现更为卓越的移动体验,与Arm终端计算子系统(CSS)同步推出了Arm Kleidi,这是一组可与推理引擎进行集成的开源软件内核,其中包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。Arm Kleidi的推出再次印证了Arm作为端侧生成式AI计算平台的领先地位。它使开发者无需学习额外的工具和技能,就能够在广泛的硬件中获得Arm CPU的出色AI性能。此外,适用于安卓系统的CSS参考软件栈搭配固定虚拟平台(Fixed Virtual Platform,FVP),有助于我们的合作伙伴加速流片前的软件开发。
AI作为当下最大的工作负载,如何使其能更高效、简单地运行于Arm计算平台之上是我们关注的重点之一,其主要挑战在于如何管理好将AI推理从云端扩展到边缘侧时所带来的复杂性,使得开发者能更顺畅地进行AI创新。
AI企业目前仍处于用户获取阶段,快速发展和实现新功能远比考虑成本更为重要。然而,随着企业在市场趋向稳定之后开始寻求盈利,我们相信AI推理将会被扩展至边缘侧。除了成本因素之外,边缘侧推理还具备增强隐私保护、减少延迟,以及能够在无法连接到云端时照常提供服务等多种优势。但与此同时,复杂性也随之增加。在云环境中,企业可以把控架构、CPU和性能等各个方面,并只需针对一个平台进行优化。而在端侧,以安卓生态系统为例,我们预计其在过去十年间就推出了不下30款CPU、25款GPU和20款NPU,其中的多数处理器仍会应用于现今消费者所使用的设备中。但毋庸置疑的是,若能将更多的AI推理卸载到端侧,企业的云端成本就会降低。
Arm KleidiAI有助于确保开发者能够获得AI开发所需的性能、工具和软件库,从而打造新一波非凡的AI体验。AI应用需要考虑成本、隐私、延迟和连接性等问题,利用KleidiAI将工作负载扩展至边缘侧,能够确保我们的合作伙伴以较低的成本为开发者提供出色的用户体验。
与此同时,Arm通过将KleidiAI集成到主流的AI框架中,包括Google和Meta的推理引擎中,为生成式AI工作负载带来了显著的性能提升,进而惠及广大的开发者群体。具体来说,与参考CPU实现方案相比,Meta Llama 3和微软Phi-3大语言模型(LLM)的首次词元响应时间提升了近三倍。与此同时,Unity Sentis在集成KleidAI后,成功启用了int4量化功能,将运行Phi-2 LLM时的模型内存占用率降低了约73%。而在国内,作为Arm多年来重要的合作伙伴,我们已携手腾讯,将KleidiAI集成到了腾讯混元大模型中,加速端侧AI推理。这些仅仅只是一个开端,我们未来还计划推出更多软件库、计算内核和引擎集成,持续在Arm平台上构建AI的未来。
Arm持续的软件投入正建立起全球最大的AI开发者社区,以期实现我们的愿景,使得所有软件都能无缝地运行在基于Arm架构的系统之上。Arm不仅提供了应用广泛的通用计算平台,而且通过IP与开源软件和工具乃至广泛的行业领先生态系统相结合,让全球上千万开发者都可以使用Arm计算平台作为AI创新的基础,基于Arm平台的AI将无处不在。