行研丨芯片存储：存内处理（PIM）引领2025商业化新潮

AI芯天下 2025-01-07 20:30

【应用手册】TI 全新MCU及C29内核的能源设施应用方案 构建AI未来，Arm计算平台无处不在

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

近年来，人工智能（AI）技术呈爆发式发展，从智能语音助手到图像识别、自动驾驶，再到如今火爆全球的生成式 AI 如 ChatGPT 等，AI 已深度融入人们的生活与工作，重塑众多行业格局。据知名市场调研机构预测，到 2025 年，全球 AI 市场规模将超万亿美元，年复合增长率超 30%。

作者 | 方文三

图片来源 | 网络

来源：东方财富网

AI算力需求激增，存储芯片迎新变革

AI 的飞速发展，对算力提出了极高要求。大模型训练动辄需要海量计算资源，以 GPT-3 为例，其训练一次消耗的算力高达 3640 PF-days，相当于约 17500 块英伟达 V100 GPU 全年不停运算。且随着模型愈发复杂、数据量指数级增长，算力需求正以每年数倍速度攀升。

在 AI 算力的核心硬件体系中，存储芯片起着关键基石作用。传统存储芯片在应对 AI 需求时却暴露出诸多瓶颈。一方面，“冯・诺依曼瓶颈” 导致数据在存储与计算单元间频繁搬运，造成巨大延迟与功耗浪费，在 AI 大数据量处理场景下，数据搬运功耗甚至超计算本身；另一方面，传统存储带宽难以满足 AI 瞬间爆发的数据读写需求，内存墙问题愈发突出，严重制约计算效率提升。

在此困境下，存内处理（PIM）技术应运而生，成为突破存储瓶颈、提升 AI 算力的希望之光。PIM 打破传统存储与计算分离架构，将计算单元嵌入存储芯片内部，使数据无需远距离搬运即可就地处理，大幅降低延迟、削减功耗，为 AI 芯片发展开辟全新路径，有望引领下一代存储革命，重塑半导体产业格局。

来源：今日头条

存算一体：颠覆传统的技术革新

传统计算架构，尤其是冯·诺依曼架构，虽然在计算机科学的发展中发挥了重要作用，但其固有的计算与存储分离的模式在面对现代计算需求时逐渐显现出局限性。随着信息技术的飞速发展，尤其是人工智能、大数据等领域的兴起，对计算速度和效率的要求不断提高。然而，在冯·诺依曼架构下，计算单元（如CPU、GPU）与存储单元（如DRAM）之间的物理分离导致了数据传输的瓶颈，即所谓的“冯·诺依曼瓶颈”。数据在计算单元和存储单元之间频繁地来回搬运，不仅消耗了大量的时间，还产生了巨大的能耗，严重影响了系统的整体性能和效率。

正是为了解决这一问题，存算一体技术应运而生。它旨在打破传统冯·诺依曼架构下计算与存储分离的桎梏，将存储与计算功能深度融合于同一芯片之中。

在经典冯·诺依曼架构里，计算单元与存储单元相互独立，数据需在两者间频繁往返搬运。以深度学习中的卷积神经网络运算为例，大量图像数据存储于内存，计算时要不断从内存读取像素值至计算单元，完成一层卷积计算后，结果又要写回内存，供下一层计算调用，这一过程消耗大量时间与能量，数据搬运延迟及功耗成为制约算力提升的关键瓶颈，有研究表明，数据搬运功耗可达计算功耗的千倍，严重拖慢整体运算效率。

存算一体技术则反其道而行之，通过在存储芯片内部嵌入计算单元，或是赋予存储单元计算能力，让数据无需长途跋涉即可就地完成处理。如基于忆阻器（RRAM）的存算一体方案，忆阻器既能存储数据，又能利用其电阻变化特性，在存储数据的同时直接完成矩阵乘法等计算操作，实现存储与计算的同步执行，一步到位得出结果，无需额外的数据搬运步骤，从根本上削减延迟、降低能耗，为高算力需求场景开辟全新路径。

存内处理（PIM）作为存算一体的关键分支，与近存计算、存内计算既有联系又有显著区别。近存计算侧重于利用先进封装技术，如 2.5D、3D 堆叠，将计算芯片与存储芯片紧密靠近，缩短数据传输路径，提升访存带宽，以减少数据搬运延迟，典型应用如 AMD、Intel 等采用 HBM 技术的产品，但本质仍未摆脱存算分离架构，计算核心与存储核心相对独立。存内计算则追求存储与计算的极致融合，像某些基于 SRAM 的存内计算芯片，直接改写存储单元电路，使其兼具计算功能，计算在存储阵列内部完成，能最大程度发挥并行计算潜力，但技术难度高、设计复杂度大。

PIM 存内处理处于两者之间，巧妙平衡了能效、精度与实现复杂度。它聚焦于将核心计算流程嵌入存储芯片，以应对数据密集型任务。以大数据分析中的频繁项集挖掘为例，海量交易数据存储于 PIM 芯片内，其内置的专用计算单元可直接对存储数据扫描、计数，快速找出频繁出现的商品组合模式，无需像传统架构那样先将数据搬至外部计算单元，避免了大量无效数据传输，能效相比传统架构提升数倍。再如实时视频处理，视频流数据持续写入 PIM 芯片存储区，同时芯片内的计算模块迅速进行图像增强、目标识别等操作，确保视频处理的低延迟与流畅性，充分彰显 PIM 在提升数据处理时效、优化能效方面的独特优势，为 AI、大数据等前沿领域注入强大动力。

来源：智研咨询整理

PIM存内处理的商业价值

在成本控制层面，PIM 技术展现出巨大优势。传统架构下，存储与计算分离，为满足计算需求，需大容量、高带宽存储及高性能计算芯片，硬件成本高昂。以数据中心为例，存储芯片与 CPU、GPU 分开购置，大规模数据存储与频繁搬运所需存储芯片数量多，加之配套复杂散热、供电模组，硬件投入巨大。据估算，传统架构数据中心存储相关硬件成本占比可达 30% - 40%。

而 PIM 将计算融入存储，减少芯片间数据传输，降低对外部高带宽存储需求，能以更少存储芯片实现同等数据处理量。如Groq，采用传统架构需 8 颗高端 GPU 与大容量 DRAM，切换至 PIM 芯片后，仅需 4 颗 PIM 芯片即可满足，硬件成本降低约 50%。同时，因数据搬运减少，功耗大幅降低，散热成本随之削减。传统数据中心散热成本占运营成本 15% - 20%，使用 PIM 技术后，散热压力骤减，相应散热设备投入、电力消耗降低，整体运营成本可降低 20% - 30%，为企业带来直观经济效益，尤其在大规模数据处理产业如云计算、超算中心，成本节省效果显著。

性能提升是 PIM 商业价值的核心亮点。在计算速度上，传统冯・诺依曼架构受限于存储与计算单元分离，数据读取延迟制约计算进程。以智能驾驶为例，车辆行驶中摄像头、雷达每秒产生海量数据，传统芯片架构下，数据从存储单元传至计算单元耗时久，导致目标识别、决策规划延迟，难以及时应对复杂路况。PIM 芯片可在存储数据瞬间启动计算，实时处理传感器数据，将目标识别延迟从数十毫秒缩至数毫秒，使车辆能快速响应、精准避障，极大提升驾驶安全性与舒适性。

从产品迭代周期看，PIM 助力企业加速上市进程。在消费电子领域，如智能手机、智能穿戴设备，用户对功能响应速度、多任务处理能力要求严苛。采用 PIM 芯片的手机，图片、视频处理速度提升 2 - 3 倍，应用启动快，多任务切换流畅。厂商借此能更快推出新品、抢占市场，研发周期可缩短 1 - 2 个月，节省时间成本同时，增强品牌竞争力，提前布局新兴技术应用，在快速迭代的消费市场占得先机，为企业带来持续增长动力，驱动产业向高性能、智能化迈进。

来源：GMIF2024

半导体巨头的PIM布局

英特尔作为半导体行业老牌劲旅，早在多年前便洞察到存算一体趋势，投入大量资源研发 PIM 技术。其推出的一系列至强处理器，部分型号已集成 PIM 模块，采用混合架构，在传统计算核心基础上，于缓存或近内存区域嵌入专用计算单元，用于加速数据密集型任务如数据库查询、AI 推理等。实验数据显示，在企业级数据中心场景下，处理大规模结构化数据查询时，搭载 PIM 技术的处理器相比前代产品，性能提升 30%，延迟降低 40%，助力企业加速业务流程，节省运营成本。

来源：IT之家

三星电子更是 PIM 领域先锋，不仅拥有深厚存储技术积累，在计算融合方面也成果斐然。其开发的 HBM-PIM 产品，将高带宽内存（HBM）与 PIM 技术精妙结合，为 AI 训练、高性能计算提供澎湃动力。在与全球顶尖科研机构合作的 AI 气候模拟项目中，基于 HBM-PIM 的计算平台，相比传统架构，数据处理速度飙升 2.5 倍，能耗降低 60%，使原本需数月的模拟周期大幅缩短，为应对气候变化研究争取宝贵时间，展现强大技术实力。同时，三星积极参与 JEDEC 等标准组织，推动 PIM 技术标准化，掌控行业话语权，引领产业发展风向。

来源：SAMSUNG

在巨头阴影下，一批初创公司如苹芯科技等正以差异化策略崭露头角。苹芯科技聚焦智能可穿戴、智能家居等小端侧场景，避开与巨头正面交锋。其核心产品基于成熟 SRAM 技术打造存算一体芯片，针对端侧设备低功耗、小尺寸、低成本需求优化。如 S300 系列芯片，集成轻量级 MCU 与先进数字 PIM 单元，在智能手表健康数据实时监测分析场景中，以毫瓦级功耗实现每秒百次以上数据处理，精准识别用户运动、心率异常，相比传统方案，功耗降低 80%，尺寸减小 60%，为端侧 AI 赋能，开辟出一片新天地，也为行业内中小玩家及创业者提供创新思路，推动 PIM 生态多元化发展。

来源：苹芯科技

PIM赋能应用场景，激发无限潜能

在智能驾驶领域，PIM 技术正成为推动行业迈向高阶自动驾驶的关键力量。随着自动驾驶级别从 L2、L3 向 L4、L5 进阶，车辆需要在瞬间处理海量来自摄像头、激光雷达、毫米波雷达等传感器的数据，以实现对周围环境的精准感知、快速决策与精准控制。

以特斯拉为例，其 Autopilot 系统每秒要处理高达数 GB 的图像、点云数据，传统架构下数据需从车载存储芯片传输至主控芯片计算，面临高延迟困境，易导致决策滞后，在高速行驶场景下，稍有延迟就可能引发危险。而采用 PIM 芯片后，传感器数据直接流入车载 PIM 存储计算单元，利用芯片内集成的专用 AI 处理核心，实时进行目标识别、路径规划等复杂运算。实验数据表明，PIM 技术可将自动驾驶系统的决策延迟从数十毫秒压缩至数毫秒，车辆能更敏捷地应对突发路况，如前方车辆急刹、行人横穿马路等，大幅提升驾驶安全性，为未来无人驾驶的大规模普及筑牢根基，让出行更智能、更安全。

在大数据分析场景中，企业每天面临着来自市场、用户、运营等各环节的海量数据洪流，从电商平台的用户浏览、购买记录，到金融机构的交易流水、风险数据，传统计算架构下，数据在存储与 CPU、GPU 间的频繁搬运，使得数据分析效率大打折扣，大量时间耗费在数据传输等待上，导致决策滞后。

PIM 技术为大数据分析带来曙光。在金融领域，银行利用 PIM 芯片加速信贷风险评估，将用户信用数据、交易数据存储于 PIM 芯片，内置的机器学习模型就地对数据挖掘分析，快速判断用户还款能力与违约风险，相比传统架构，评估时间从数小时缩短至半小时以内，大幅提升业务审批效率，助力金融机构在瞬息万变的市场中精准放贷、防控风险。电商巨头如亚马逊，借助 PIM 技术优化商品推荐系统，实时分析用户实时浏览行为、历史购买偏好等多源数据，在用户浏览瞬间精准推送心仪商品，商品推荐准确率提升 15% - 20%，推动销售转化率显著增长，让企业在激烈市场竞争中，凭借数据优势脱颖而出，开启智能决策、高效运营新篇章。

来源：摄图网

2025商业化展望

展望 2025 年，存内处理（PIM）技术商业化将步入全新阶段。据Precedence Research数据显示，2023年全球存内计算市场规模约为180.4亿美元，预计到2028年将增长至387.6亿美元，期间年复合增长率为17%。这一数据充分展示了内存内处理技术的广阔前景与巨大潜力。消费电子领域，智能手机、平板电脑等设备将广泛搭载 PIM 芯片，实现更快图像视频处理、智能语音交互，提升用户体验；数据中心领域，PIM 助力云计算服务商大幅削减运营成本，提升算力交付效率，增强市场竞争力。

应用场景拓展上，PIM 有望在医疗影像诊断、工业物联网实时监测等新兴领域大放异彩。如医疗影像诊断中，PIM 芯片可实时处理海量医学影像数据，辅助医生快速精准识别病灶，缩短诊断时间；工业物联网里，工厂设备传感器数据在 PIM 芯片内即时分析，实现故障预警、生产流程优化，推动智能制造升级。

然而，前行之路并非坦途。技术标准不统一是首要难题，各厂商 PIM 产品架构、接口各异，导致系统集成复杂、兼容性差，制约产业规模化发展。亟需行业协会、龙头企业携手，加快制定统一技术规范与接口标准，如 JEDEC 组织推动内存标准制定般，为 PIM 产业发展铺就基石。助力 PIM 产业在全球科技竞争浪潮中破浪前行，开启存储与计算融合新篇章。

来源：摄图网

内容参考资料来源：GMIF2024 | 北大集成电路学院院长蔡一茂：AI时代的存储器与存内计算技术发展；DRAM存算芯片，引领AI大模型算力革命-电子工程专辑；PIM存储器的概念、原理以及其在计算领域的潜力；下一代存储器趋势：存内处理（PIM），商业化迎来新进展 - 今日头条；芯趋势丨存算一体，AI计算的最优解？ - 今日头条；存算一体，拯救“疯狂吃电”的AI芯片？ - 今日头条；深度解析三星内存处理技术（PIM）-电子发烧友网；比GPU快20倍？d-Matrix推理性价比分析 - 智源社区；三星与SK海力士合作，加速低功耗LPDDR6-PIM产品标准化|lpddr|sk|三星电子|低功耗|内存|海力士|知名企业_手机网易网；智能驾驶芯片：地平线地位相对稳固，架构变化下新玩家亦有机会突围--手机中研网；突破传统架构，苹芯科技全球首款基于28nm SRAM存内计算加速器测试成功 | 极客公园；PIM技术在人工智能应用的前景 - 今日头条；下一代存储器趋势：存内处理（PIM），商业化迎来新进展；内存内处理 (PIM)芯片市场报告：获业内广泛关注，行业仍处于发展初期--恒州诚思_市场调查报告_市场分析研究_恒州诚思网