AI推理计算的可能终局:存算一体芯片!

原创 SSDFans 2025-01-14 08:33


点击蓝字
关注我们



生成式AI为提高效率带来了令人难以置信的商机,但我们仍然面临着一个阻碍广泛采用的巨大挑战:运行推理的高昂成本。



我们已经听说过大型语言模型(LLM)训练期间产生的惊人费用:大量的GPU,高昂的电费。分析师估计,Meta 2024年可能会在GPU上花费150亿美元。生成式AI需要大量的内存和带宽来进行权重计算和数据处理,这是大规模运行模型的主要障碍。就连OpenAISam Altman也表示:“没有突破,就不可能实现这一目标。这促使我们加大对核聚变的投资。”


迄今为止,CPUGPU和许多定制设计的加速器一直是AI的主要选择,但即使是最先进的解决方案也会被传统的冯·诺伊曼架构所拖累。定制设计的ASICFPGAAPU提供具有更高内存带宽的专用控制器,并且需要大量RAM来将模型保存在内存中,这使得生成式AI几乎不可能经济地交付。


尽管存在这些成本和计算限制,但很快企业将广泛部署多种AI模型,扩大对推理的需求。这将需要计算能力的另一个显著提高。生成式AI推理需要更多的计算和内存容量,因为今天的模型比过去的非生成式ML模型大得多。


推理的计算不仅取决于模型的大小,还取决于用户输入提示的大小。例如,当提示符长度从8K增加到32K时,OpenAIGPT-4运行成本增加了一倍。另一方面,模型生成每个输出token的速度是一个重要的用户体验度量。这里内存带宽很重要,但是遗留架构的内存带宽限制加剧了推断成本和功耗的痛点。


AI社区正在积极寻找解决方案来应对这些挑战,包括气候友好型能源(风能、太阳能等)、新的硬件设计方法和算法优化。今天我想谈谈解决这个问题的方法。


存储和能量墙


加州大学伯克利分校BAIR/SkyLab的研究科学家Amir Gholami及其同事在他们的文章“AI和内存墙”中描述了训练和服务transformer模型的挑战。“内存墙”是William WulfSally McKee1995年创造的一个术语,它既包括有限的容量,也包括存储传输的带宽。分布式推理可以避免单个加速器有限的内存容量和带宽,但这种方法也面临内存墙问题:在加速器之间移动数据的通信瓶颈,这比芯片上的数据移动更慢,效率更低。


从训练过的权重中创建内容需要大量的微小计算。为了进行这些计算,使用了GEMMGeneral Matrix Multiply通用矩阵乘法)操作。GEMM不需要大型处理器,但它需要快速高效的小型计算。


这就是记忆墙阻碍的地方。对于每个操作,数据必须在DDR RAM和处理器之间以及处理器之间传输。即使这段旅程只有毫米的距离,由于冯·诺依曼架构中存储和计算处理器的分离,它也需要时间和能量。而且有这么多的计算!


每次数据在存储器总线上移动时,DRAM访问每字节消耗大约60皮焦耳,而每次操作的计算只需要50-60飞焦耳。这意味着来回移动数据所消耗的能量是实际使用数据所消耗能量的一千倍。随着这些能源成本累积到数百万用户提示,每个GPU数百瓦,以及全球数千台服务器和数据中心,你可以看到为什么Altman认为我们需要核能突破。


内存计算


如果在存储和处理之间来回移动数据的效率如此之低,那么我们是否可以将计算移到内存中呢?近年来,内存计算(in-memory computing,简称IMC)通过直接在内存单元附近/内部执行MAC(乘-累加)操作而成为一种很有前途的替代方法。


普渡大学的研究表明,与机器学习推理的既定基线相比,内存计算架构的能耗降低至0.12倍。位于比利时KU Leuven研究型大学的MICAS中心支持IMC,强调其降低访问开销和实现大规模并行化机会的能力,可能导致能源效率和吞吐量的数量级提高。


该领域的早期探索将模拟IMC视为评估权重和在预训练的LLM上运行推理的有效方法。然而,这种方法需要昂贵的数模转换器和额外的错误检查。


数字内存计算(DIMC)提供了一种替代方案,避开了模拟IMC的挑战,提供无噪声计算和更大的空间映射灵活性。与模拟相比,DIMC牺牲了一些面积效率,但为处理未来的AI需求提供了更多的灵活性和能力。KU Leuven的研究还支持SRAM作为IMC的首选解决方案,因为与基于NVM的解决方案相比,SRAM具有鲁棒性和可靠性。


DIMC有望彻底改变AI推理,降低成本并提高性能。鉴于生成式AI的采用速度很快,只有通过将计算引入内存并提高性能来追求降低成本和功耗的新方法才有意义。通过减少不必要的数据移动,我们可以显著提高AI的效率,并改善AI未来的经济状况。


Sree Ganesand-Matrix的产品副总裁,d-Matrix是一家为生成式AI推理开发AI芯片的初创公司。


原文链接:

https://insidehpc.com/2024/02/in-memory-computing-could-be-the-inference-breakthrough-ai-needs/



高端微信群介绍

创业投资群


AI、IOT、芯片创始人、投资人、分析师、券商

闪存群


覆盖5000多位全球华人闪存、存储芯片精英

云计算群


全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群


讨论AI芯片和GPU、FPGA、CPU异构计算

5G群


物联网、5G芯片讨论

第三代半导体群

氮化镓、碳化硅等化合物半导体讨论

储芯片群

DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子群

MCU、电源、传感器等汽车电子讨论

光电器件群

光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群

存储和芯片产品报价、行情、渠道、供应链




< 长按识别二维码添加好友 >

加入上述群聊




长按并关注

带你走进万物存储、万物智能、

万物互联信息革命新时代

微信号:SSDFans




SSDFans AI+IOT+闪存,万物存储、万物智能、万物互联的闪存2.0时代即将到来,你,准备好了吗?
评论 (0)
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 166浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 202浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 149浏览
  • 退火炉,作为热处理设备的一种,广泛应用于各种金属材料的退火处理。那么,退火炉究竟是干嘛用的呢?一、退火炉的主要用途退火炉主要用于金属材料(如钢、铁、铜等)的热处理,通过退火工艺改善材料的机械性能,消除内应力和组织缺陷,提高材料的塑性和韧性。退火过程中,材料被加热到一定温度后保持一段时间,然后以适当的速度冷却,以达到改善材料性能的目的。二、退火炉的工作原理退火炉通过电热元件(如电阻丝、硅碳棒等)或燃气燃烧器加热炉膛,使炉内温度达到所需的退火温度。在退火过程中,炉内的温度、加热速度和冷却速度都可以根
    锦正茂科技 2025-04-02 10:13 73浏览
  • 在智能交互设备快速发展的今天,语音芯片作为人机交互的核心组件,其性能直接影响用户体验与产品竞争力。WT588F02B-8S语音芯片,凭借其静态功耗<5μA的卓越低功耗特性,成为物联网、智能家居、工业自动化等领域的理想选择,为设备赋予“听得懂、说得清”的智能化能力。一、核心优势:低功耗与高性能的完美结合超低待机功耗WT588F02B-8S在休眠模式下待机电流仅为5μA以下,显著延长了电池供电设备的续航能力。例如,在电子锁、气体检测仪等需长期待机的场景中,用户无需频繁更换电池,降低了维护成本。灵活的
    广州唯创电子 2025-04-02 08:34 154浏览
  • 文/Leon编辑/cc孙聪颖‍步入 2025 年,国家进一步加大促消费、扩内需的政策力度,家电国补政策将持续贯穿全年。这一利好举措,为行业发展注入强劲的增长动力。(详情见:2025:消费提振要靠国补还是“看不见的手”?)但与此同时,也对家电企业在战略规划、产品打造以及市场营销等多个维度,提出了更为严苛的要求。在刚刚落幕的中国家电及消费电子博览会(AWE)上,家电行业的竞争呈现出胶着的态势,各大品牌为在激烈的市场竞争中脱颖而出,纷纷加大产品研发投入,积极推出新产品,试图提升产品附加值与市场竞争力。
    华尔街科技眼 2025-04-01 19:49 211浏览
  • 随着汽车向智能化、场景化加速演进,智能座舱已成为人车交互的核心承载。从驾驶员注意力监测到儿童遗留检测,从乘员识别到安全带状态判断,座舱内的每一次行为都蕴含着巨大的安全与体验价值。然而,这些感知系统要在多样驾驶行为、复杂座舱布局和极端光照条件下持续稳定运行,传统的真实数据采集方式已难以支撑其开发迭代需求。智能座舱的技术演进,正由“采集驱动”转向“仿真驱动”。一、智能座舱仿真的挑战与突破图1:座舱实例图智能座舱中的AI系统,不仅需要理解驾驶员的行为和状态,还要同时感知乘员、儿童、宠物乃至环境中的潜在
    康谋 2025-04-02 10:23 99浏览
  • 北京贞光科技有限公司作为紫光同芯授权代理商,专注于为客户提供车规级安全芯片的硬件供应与软件SDK一站式解决方案,同时配备专业技术团队,为选型及定制需求提供现场指导与支持。随着新能源汽车渗透率突破40%(中汽协2024数据),智能驾驶向L3+快速演进,车规级MCU正迎来技术范式变革。作为汽车电子系统的"神经中枢",通过AEC-Q100 Grade 1认证的MCU芯片需在-40℃~150℃极端温度下保持μs级响应精度,同时满足ISO 26262 ASIL-D功能安全要求。在集中式
    贞光科技 2025-04-02 14:50 128浏览
  • 文/郭楚妤编辑/cc孙聪颖‍不久前,中国发展高层论坛 2025 年年会(CDF)刚刚落下帷幕。本次年会围绕 “全面释放发展动能,共促全球经济稳定增长” 这一主题,吸引了全球各界目光,众多重磅嘉宾的出席与发言成为舆论焦点。其中,韩国三星集团会长李在镕时隔两年的访华之行,更是引发广泛热议。一直以来,李在镕给外界的印象是不苟言笑。然而,在论坛开幕前一天,李在镕却意外打破固有形象。3 月 22 日,李在镕与高通公司总裁安蒙一同现身北京小米汽车工厂。小米方面极为重视此次会面,CEO 雷军亲自接待,小米副董
    华尔街科技眼 2025-04-01 19:39 217浏览
  • 职场之路并非一帆风顺,从初入职场的新人成长为团队中不可或缺的骨干,背后需要经历一系列内在的蜕变。许多人误以为只需努力工作便能顺利晋升,其实核心在于思维方式的更新。走出舒适区、打破旧有框架,正是让自己与众不同的重要法宝。在这条道路上,你不只需要扎实的技能,更需要敏锐的观察力、不断自省的精神和前瞻的格局。今天,就来聊聊那改变命运的三大思维转变,让你在职场上稳步前行。工作初期,总会遇到各式各样的难题。最初,我们习惯于围绕手头任务来制定计划,专注于眼前的目标。然而,职场的竞争从来不是单打独斗,而是团队协
    优思学院 2025-04-01 17:29 200浏览
  • 探针本身不需要对焦。探针的工作原理是通过接触被测物体表面来传递电信号,其精度和使用效果取决于探针的材质、形状以及与检测设备的匹配度,而非对焦操作。一、探针的工作原理探针是检测设备中的重要部件,常用于电子显微镜、坐标测量机等精密仪器中。其工作原理主要是通过接触被测物体的表面,将接触点的位置信息或电信号传递给检测设备,从而实现对物体表面形貌、尺寸或电性能等参数的测量。在这个过程中,探针的精度和稳定性对测量结果具有至关重要的影响。二、探针的操作要求在使用探针进行测量时,需要确保探针与被测物体表面的良好
    锦正茂科技 2025-04-02 10:41 71浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 193浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦