广告

释放 AI 潜能,Arm 计算平台构建计算与存储的未来

2025-03-18 Arm 物联网事部业务拓展副总裁 马健 阅读:  
在 AI 时代,为满足数据实时分析、智能管理及高效访问等需求,将存储置于离计算单元更近的地方,或让存储本身具备计算能力,变得尤为关键。这样能够确保 AI 任务在最合适的位置得到高效执行。

当下,我们正处在激动人心的人工智能 (AI) 技术变革初期阶段。随着自然语言、多模态大模型以及生成式 AI 技术的加速演进,AI 正以前所未有的速度重塑各行各业。根据 IDC 的预测,。其中,到 2028 年,,而其余数据会从边缘端和终端直接产生。

面对边缘数据的激增,高效的数据处理、低延迟传输以及智能、安全的存储正成为行业关注的重点。未来的计算架构不仅要提供更强的算力,还必须更紧密地与存储系统结合,以确保 AI 模型能够高效运行,同时优化数据管理和访问方式。

从目前的 AI 技术发展方向来看,一方面,大模型正向通用人工智能 (AGI) 演进,探索多模态、物理 AI 等新方向,并持续挑战算力的新极限。另一方面,为推进大模型全面部署的进程,行业开始迈向深度优化和垂直领域定制化,使大模型能走入千行百业,适应移动端、边缘计算、云端部署等不同场景。

广告

DeepSeek 的推出对全球 AI 市场产生了深远影响:作为一种开放的创新技术,​它不仅展示了 AI 在训练与推理过程中的优化潜力,还极大提高了大规模部署的效率,充分证明了模型能够在更低成本、更高效能的环境中稳定运行。这一成就对于推动 AI 在企业级应用和边缘计算领域的大规模应用具有重要意义。

Arm 计算平台持续促进从云到端的 AI 优化部署

在 AI 发展的初期阶段,数据中心作为模型训练和初期推理的核心场所,正面临着前所未有的挑战。传统的标准通用芯片在处理计算密集型的 AI 工作负载时显得力不从心,无法满足 AI 时代对于高性能、低功耗以及灵活扩展性的迫切需求。在此背景下,Arm 计算平台凭借其先进的技术优势,为新一代 AI 云基础设施的发展开辟了新的范式。从 Arm Neoverse 计算子系统 (CSS)、Arm Total Design 生态项目到芯粒系统架构 (CSA),Arm 进行了从技术到生态的整体化布局,不仅为 AI 数据中心的工作负载提供了高效、灵活且可扩展的解决方案,还帮助合作伙伴专注于产品差异化,为产品上市进程提速。

AI 推理是 AI 释放价值的关键,它正迅速从云端拓展至边缘端,覆盖世界的每一个角落。在边缘 AI 领域,Arm 凭借其技术与生态的独特优势,不断创新,确保智能物联网与消费电子生态系统能在恰当的时机、于最适合的地点执行最优工作负载。

为了满足边缘 AI 日益攀升的 AI 工作负载需求,Arm 近期发布了以全新 Armv9 超高能效 CPU Cortex-A320 以及对 Transformer 网络具有原生支持的 Ethos-U85 AI 加速器为核心的边缘 AI 计算平台。该平台实现了 CPU 与 AI 加速器的深度集成。相比去年以 Cortex-M85 搭配 Ethos-U85 的平台提升了八倍的机器学习 (ML) 计算性能,带来了显著的 AI 计算能力突破,可赋能边缘 AI 设备轻松运行超过 10 亿参数的大模型。

图1:Arm 边缘 AI 计算平台支持运行超 10 亿参数的端侧 AI 模型

其中,全新发布的超高能效 Cortex-A320 不仅可以为 Ethos-U85 提供更高的内存容量与带宽,让大模型在 Ethos-U85 上的执行如虎添翼,还支持更大的可寻址内存空间,并能够更灵活地管理多层次内存访问延迟。Cortex-A320 与 Ethos-U85 的组合,是运行大模型及应对边缘 AI 任务所带来的内存容量及带宽挑战的理想选择。

此外,Cortex-A320 还充分利用了 Armv9 增强的 AI 计算特性以及包括 Secure EL2、指针验证/分支目标识别 (PACBTI) 以及内存标记扩展 (MTE) 等在内的安全特性。此前,这些特性已经在其他市场得到广泛应用,而 Arm 现在将其引入了物联网与边缘 AI 计算领域,在提供出色且灵活 AI 性能的同时,实现对软件负载更好的隔离与软件内存异常的防护,提高整体系统安全性。

AI 时代的存储发展:存储、计算和安全能力的全面升级

随着 AI 计算需求的持续增长,云边端在对计算能力提出更高要求的同时,也对存储系统的性能、密度、实时性和功耗等方面提出了更严苛的要求。在传统模式下,计算架构往往将存储和计算相对分离,存储设备仅仅承担数据存放的角色,数据需要在存储与计算节点之间频繁搬移,导致“存储-计算”之间的瓶颈。然而在 AI 时代,为满足数据实时分析、智能管理及高效访问等需求,将存储置于离计算单元更近的地方,或让存储本身具备计算能力,变得尤为关键。这样能够确保 AI 任务在最合适的位置得到高效执行。

从云到端的 AI 计算,对存储吞吐量、延迟、能耗、安全以及诸如 Open Channel 等提升主机可管理性 (host manageability) 的需求都不尽相同。存储控制器以及运行在存储控制器中 Arm CPU 上的固件在支持差异化 AI 存储需求中起到了极其重要的作用。

图2:Arm 丰富的 IP 平台解决方案为 AI 存储提供领先的性能及能效

事实上,作为数据存储与网络控制的基石,Arm 一直在为全球存储控制器和设备提供高性能、低功耗、安全可靠的解决方案,其中包括:

·Arm Cortex-R 系列实时处理器拥有最快的中断延时和实时反应速度,被广泛应用于诸多存储设备;

·Arm Cortex-M 系列嵌入式处理器是后端闪存和媒体控制的热门选择,并支持自定义指令,客户可以针对独特 NAND 介质的深度优化来创造差异;

·Arm Cortex-A 系列应用处理器以高吞吐量流水线设计、支持最高处理性能,同时拥有 ML、数据处理软件和丰富操作系统的坚实生态支持;

·Arm Ethos-U AI 加速器支持每秒 2048MACs 的 Transformer 原生加速,可以助力存储控制器本身变得更智能;

·此外,还有为数据中心量身定制的 Neoverse。我们已开始看到 CXL (Compute Express Link) 方面的创新设计采用 Arm Coherent Mesh Network (CMN) 与 Neoverse 组合实现可“组成式”内存扩展,并融入近存储计算的理念,减少数据搬运。

生态携手,构建 AI 计算与存储未来

在专注提供领先的技术和产品的同时,Arm 还致力于和生态系统合作伙伴携手共进,共同推动存储产业的发展。基于 Arm 架构的平台正被行业领先的存储企业广泛采用,以优化其存储解决方案。例如,Solidigm 公司最新发布的 122TB PCIe SSD Solidigm™ D5-P5336 ​显著提升了 AI 数据中心的能效、存储密度和性能,其存储控制器采用 Arm Cortex-R CPU,有效提升了读写的实时性和延时确定性;慧荣科技 (Silicon Motion) 面向 AI PC 的 SM2508 主控芯片采用了 Arm Cortex-R8 与 Cortex-M0,在能效和数据吞吐上实现了突破,其 SM2264XT-AT 是业界首款车用 PCIe Gen4 主控芯片,通过增强的虚拟化来支持混合关键性工作负载对数据的访问,并可节省 30% 的能耗;江波龙基于 Arm Cortex-R CPU 打造的 XP2300、ORCA 4836 以及 UNCIA 3836 固态硬盘,凭借其大容量与高性能的优势,广泛应用于 AI PC、服务器、云计算、分布式存储及边缘计算等多个应用场景,满足 AI 技术的本地化部署需求。

此外,在本土存储市场,大普微、联芸科技、忆芯科技、特纳飞、得一微电子、英韧科技等领先的存储企业,也都广泛采用 Arm 技术打造 SSD 主控芯片与设备方案。

迄今为止,基于 Arm 架构和平台所应用的存储设备已近 200 亿台,其中包括云和企业级 SSD、车载 SSD、消费级 SSD、硬盘驱动器和嵌入式闪存设备。目前,由 Arm 技术赋能的存储设备持续保持在每日大约 300 万台的出货量。

凭借前沿的技术实力、丰富的生态布局、深厚的存储行业积累,Arm 正继续引领技术创新,赋能 AI 时代的计算与存储发展。Arm 也将继续与合作伙伴携手,通过安全、高效的 Arm 计算平台,构建 AI 时代计算与存储的新未来。

您可能感兴趣的文章
相关推荐
    广告
    近期热点
    广告
    广告
    可能感兴趣的话题
    广告
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了