后摩智能押宝的「存算一体AI芯片」是什么?

原创 焉知新能源汽车 2023-06-20 15:43

5 月 15 日,后摩智能发布了首款存算一体芯片——鸿途 H30,最高物理算力 256TOPS,功耗仅为 35W,碾压国内一众智驾芯片。

存储一体?还首款?

不仅是后摩智能,包括英特尔、SK 海力士、IBM、美光、三星、台积电、阿里、九天睿芯、恒烁股份、亿铸科技、千芯科技、苹芯科技、知存科技、智芯科技等在内,无论是国际大厂还是初创企业都纷纷扎堆涌入这个领域。

不禁要问,让各大芯片厂商打鸡血的存储一体是个什么东西,下面我们存算一体技术是什么,为什么这么火爆。

01

存算一体是什么

目前市面上的芯片都是基于冯诺依曼架构,其特点是处理单元和存储单元分离,各不相干,需要运算的时候,计算单元再从存储单元读取数据进行处理,处理完再还回去。

而存算一体则是把存储单元和处理单元合二为一,把数据和计算融合在同一片区中,这样处理的好处在于可以直接利用存储器进行数据处理,从根本上消除冯诺依曼架构计算存储分离的问题,尤其特别适用于现代大数据大规模并行的应用场景。

实际上存储一体并不是近年来被提出的新概念,最早可追溯至上个世纪 70 年代,只是受限于当时的芯片制造技术和算力需求,存算一体仅仅停留在理论研究上,一直到了大数据、人工智能时代,巨大的算力需求才为存算一体提供了新的发展动力。

比如中国国防科大、中科曙光和国家并行计算机工程技术研究中心计划推出首台 E 级超算,但想要研制这种级别的超算,科学家首先面临的巨大挑战就是功耗过高问题,以现有的技术研制 E 级超算功率高达千兆瓦,需要一个专门的核电站才能满足耗电量,而其中 50% 以上的电量都要被用来消耗进行数据搬运。

本质上就是冯诺依曼架构的处理和存储分离的缺陷所致,因此存算一体被当作全村的希望。

02

存算一体的优势

由于把存储计算合二为一,去掉了中间传输路径,所以可以大幅减少数据搬运,消过程中不必要的延迟和功耗,能耗可降至 1/10-1/100,能效可提升 10-100TOPS/W

因为存储一体是以存储器为介质,在里面加入计算单元,所以可以直接利用存储单元进行逻辑计算提升算力。(等效于在面积不变的情况下规模化增加计算核心数),在特定区域可提供 1000TOPS 以上的算力

不依赖制程工艺,因为存储一体基于全新架构开发,可以打破摩尔定律的限制,所以不受先进制程工艺限制。比如鸿途 H30 就是基于 12nm 制程工艺打造,在 Int8 数据精度下实现高达 256TOPS 的物理算力,功耗不超过 35W。

如果在传统的冯·诺依曼架构下采用相同工艺,能效比多在 2TOPS/W,某国际巨头芯片基于 8nm 工艺,如果二者用同一工艺,存算一体架构的芯片处理效率优势将会更加明显。

存算一体超越冯诺依曼架构,该架构可彻底消除数据搬运过程中的延迟和功耗,是一种真正意义上的处理存储相融合,所以二者完全耦合,可以开发更细粒度的并行性,从而获得更高的性能和能效,明显超越现有的 ASIC 芯片。

存算一体架构无论是制程、功耗、成本还是算力,相比传统架构都有明显优势,可以说完全就是为人工智能时代而生,但前途有多光明,道路就有多曲折,存算一体技术研发的困难也是相当巨大。

03

存算一体的挑战

传统架构是计算和存储相分离,现在两者要合二为一,这就对存储器本身和存算一体的设计提出更高的要求,是需要技术人员从头探索的新领域。

随着以后数据量不断增大,在全新架构下,计算、功耗、通信三方面都要重新变革,对制造工艺都提出更高要求。

为了保持梯度计算的保真性和权重更新,现在市面上的AI芯片大都在 16bit 精度以上,而作为首款存算一体芯片的鸿途 H30 只有 8bit,还难以和传统芯片媲美,即便是在 PCM 存储器上有十多年的 IBM,也只是发布了 8bit 精度的模拟芯片,而其他大厂如微软、英特尔、美光等则是投资创业公司。

由于存算一体是把计算和数据高度耦合,因此一旦其中一方出问题,另一方几乎也会遭到极大影响,这都是需要处理的难题。

总而言之,存算一体是一条全新的、没有现成方法可以参考的、还需要解决传统架构遗留问题的艰难道路。

可即便优势明显,但存算一体难度这么大,为什么各路大厂还要纷纷打鸡血参战,传统芯片架构技术成熟、产品可靠,创业公司也就算了,但为什么传统厂商也来趟这趟回水,传统芯片架构没路可走了吗,下面就要说说传统架构的问题了。

04

传统芯片架构的「原罪」

文章开头提到过,传统芯片都是基于冯诺依曼架构开发,这种架构的特点是处理和存储两部分是分开的,通过数据总线进行数据连接传输,而且是以处理为主,存储主要起到辅助作用,处理器先要把存储器里的数据搬运出来才能处理,处理完再丢回去。

但随着芯片技术的飞速发展,处理器的性能不断飙升,而存储器的性能却在龟速前进,两者的性能差距越来越大,存储器的读写速度远远跟不上处理器的处理速度,导致芯片在运行的时候,大部分算力都被搬运数据的过程消耗掉了,只有小部分算力被有效利用。

就相当于一个极度口渴的人拿着一瓶水,瓶子的瓶体直径有 1 米,但瓶口直径只有 1 厘米,那种感觉各位感受下,所以逐渐就形成了业界普遍流传的存储墙,严重制约芯片综合性能的提升。

有算力的地方就有功耗,正如上文所说,基于冯诺依曼架构开发的芯片在处理数据的过程中,处理器先要通过数据总线把存储器中的数据搬运出来,处理完成后在搬运回去,整个搬运过程所消耗的功耗是浮点运算的 4-1000 倍左右。

虽然半导体工艺一直在进步,芯片的总体功耗在下降,但冯诺依曼架构天然的缺陷难以改变,数据搬运的功耗比只会越来越大,整个过程的无用能耗能占到 60%-90%,能效之低,令人发指,因此又形成了功耗墙,两面墙就这样死死压制着芯片性能的提升。

另外,根据咨询公司评估,晶圆厂每一代工艺的建设资金都在急剧增加,还不说技术专利和人才问题,只是建造一个 5nm 晶圆厂,就需要 160 亿美元,光是资金就吓退所有人。

为了打破冯诺依曼架构的瓶颈,降低处理和存储二者搬运过程带来的高损耗,学术界和产业界尝试了各种方法,大体可分为两类:

近存储计算

核心思想就是设计芯片的时候,把处理单元和存储单元两块区域尽可能的拉近距离,缩短路径,从而降低数据搬运过程中的算力损耗和功耗,目前市面上的主要技术路径是多级缓存和高密度片上存储。

光互连、2D/3D堆叠和高速带宽数据通信

2D/3D堆叠技术是将多个芯片堆叠在一起,通过增大处理单元和存储单元之间的并行宽度提高传输速度。

高速带宽数据通信主要就是通过提高通信带宽降低数据搬运过程的损耗。

因为冯诺依曼架构的天然缺陷依旧存在,所以上面两种方案并没有从根本上解决数据存储和处理的搬运损耗问题,到了大数据、人工智能时代,海量的数据处理让这些问题暴露的更加彻底,产业界和学术界都迫切希望找到一种能彻底解决该问题的方案,就是存算一体。

综上所述,就是传统的冯诺依曼架构缺陷导致自我消耗、限制太大,无法满足算力需求,再加上摩尔定律逼近极限、晶圆厂建设又是个吞金兽,成本巨大,几乎死路一条,各大厂商只能押注存算一体。

简单来说,从冯诺依曼架构到存算一体架构,指导思想就是停止内耗,一致对外。

05

存算一体技术发展路线

虽然存储一体已经成为目前业界发展共识,但由于各个技术厂商的技术、发展方向、商业模式等条件不同,因此发展出了四种路径。

查存计算

目前 GPU 芯片中对复杂函数的处理就是用了这种方法,主要通过在存储单元内部查表完成处理任务,技术成熟稳定。

近存计算

国外的典型代表便是 AMD 的 ZEN 系列 CPU,国内阿里巴巴基于 DRAM 的 3D 堆叠技术芯片也是这个路线,主要通过在存储区域外部的独立处理单元完成操作,这种架构的代际升级成本较低,特别适合传统芯片厂商过渡。

存内计算

主要在存储单元内部加入独立计算单元完成数据处理操作,计算方式可以是数字也可以是模拟,一般用于固定场景的算法计算,上文提到的鸿途 H30 便属于这种。

存内逻辑

这是目前存算一体的最新架构,主要在存储区域加入计算逻辑,直接进行数据计算,这种架构数据传输路径最短,真正做到存算一体,能满足大模型的计算需求,代表厂商有 TSMC 和千芯科技。

由于存算一体芯片都是基于存储器介质开发,而存储器可分为易失性和非易失性两种,所以又有数字计算和模拟计算两种方向。

基于易失性的数字计算存储器,主要有 SRAM 和 DRAM。

SRAM 和 DRAM 技术工艺成熟,是目前存储器的主流,因此很多厂商都基于两者展开存算一体技术研究,具有高性能和高精度优点,也有很好的抗噪声能力和可靠性。

基于非易失性的模拟计算存储器,主要有闪存 Flash、相变存储器 PCM、阻变存储器 RRAM/忆阻器 ReRAM。

这些新型存储器在近年来取得了较快的发展,具有存储密度大、并行度高优点、对存储和计算具备天然的融合性,但对环境噪声和温度比较敏感,但由于工艺尚不成熟,距离真正落地还有一段距离。

数字存算一体适合大算力高能效的应用场景,模拟存算一体适合小算力、不需要非常强的可靠性的民用场景。

一句话概括,未来很长一段时间内,SRAM 和 DRAM 都是存算一体芯片的主流选择。

写在最后

存算一体已经被业界普遍确定为下一代人工智能芯片技术发展方向,由于是全新的技术方向,目前国内外厂商都处于刚起步阶段,没有成熟方法可以借用,而且该技术依赖于存储器的不断流片积累经验,需要技术团队有充分的量产经验和技术认知,还需要大量资金,行业壁垒很高。

目前各大厂商根据自身情况,主要有两种发展思路:

  • 从小算力入手,比如从 1TOPS 开始,先解决音频类、健康类这些低功耗的应用场景,掌握芯片商业化后的性能和功耗问题,然后在进入大算力领域。

  • 直接发展大算力,提供大于 100TOPS 的高性价比产品,应用于智能驾驶、云计算、机器人等领域。

随着现在各种大模型、自动驾驶、云计算等 AI 技术的加速落地,对大算力需求迫切增加,即使技术有很多困难,但巨大的市场需求一定会倒逼技术突破,成为继 CPU、GPU 架构之后的另一主流架构。

添加微信,找到我们




更多阅读



我们研究了特斯拉、毫末「自动驾驶算法」的秘密

Momenta CEO曹旭东:自动驾驶没有百亿美金公司,要么千亿美金、要么被收购或淘汰

2022,车载高规激光雷达量产元年


焉知新能源汽车 新能源科技、智车科技
评论 (0)
  • 行业痛点:电动车智能化催生语音交互刚需随着全球短途出行市场爆发式增长,中国电动自行车保有量已突破3.5亿辆。新国标实施推动行业向智能化、安全化转型,传统蜂鸣器报警方式因音效单一、缺乏场景适配性等问题,难以满足用户对智能交互体验的需求。WT2003HX系列语音芯片,以高性能处理器架构与灵活开发平台,为两轮电动车提供从基础报警到智能交互的全栈语音解决方案。WT2003HX芯片技术优势深度解读1. 高品质硬件性能,重塑语音交互标准搭载32位RISC处理器,主频高达120MHz,确保复杂算法流畅运行支持
    广州唯创电子 2025-04-10 09:12 183浏览
  • 由西门子(Siemens)生产的SIMATIC S7 PLC在SCADA 领域发挥着至关重要的作用。在众多行业中,SCADA 应用都需要与这些 PLC 进行通信。那么,有哪些高效可行的解决方案呢?宏集为您提供多种选择。传统方案:通过OPC服务器与西门子 PLC 间接通信SIMATIC S7系列的PLC是工业可编程控制器,能够实现对生产流程的实时SCADA监控,提供关于设备和流程状态的准确、最新数据。S7Comm(全称S7 Communication),也被称为工业以太网或Profinet,是西门
    宏集科技 2025-04-10 13:44 103浏览
  •   天空卫星健康状况监测维护管理系统:全方位解析  在航天技术迅猛发展的当下,卫星在轨运行的安全与可靠至关重要。整合多种技术,实现对卫星的实时监测、故障诊断、健康评估以及维护决策,有力保障卫星长期稳定运转。  应用案例       系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。  一、系统架构与功能模块  数据采集层  数据处理层  智能分析层  决策支持层  二、关键技术  故障诊断技术  
    华盛恒辉l58ll334744 2025-04-10 15:46 95浏览
  • 背景近年来,随着国家对资源、能源有效利用率的要求越来越高,对环境保护和水处理的要求也越来越严格,因此有大量的固液分离问题需要解决。真空过滤器是是由负压形成真空过滤的固液分离机械。用过滤介质把容器分为上、下两层,利用负压,悬浮液加入上腔,在压力作用下通过过滤介质进入下腔成为滤液,悬浮液中的固体颗粒吸附在过滤介质表面形成滤饼,滤液穿过过滤介质经中心轴内部排出,达到固液分离的目的。目前市面上的过滤器多分为间歇操作和连续操作两种。间歇操作的真空过滤机可过滤各种浓度的悬浮液,连续操作的真空过滤机适于过滤含
    宏集科技 2025-04-10 13:45 98浏览
  • 政策驱动,AVAS成新能源车安全刚需随着全球碳中和目标的推进,新能源汽车产业迎来爆发式增长。据统计,2023年中国新能源汽车渗透率已突破35%,而欧盟法规明确要求2024年后新能效车型必须配备低速提示音系统(AVAS)。在此背景下,低速报警器作为车辆主动安全的核心组件,其技术性能直接关乎行人安全与法规合规性。基于WT2003H芯片开发的AVAS解决方案,以高可靠性、强定制化能力及智能场景适配特性,正成为行业技术升级的新标杆。WT2003H方案技术亮点解析全场景音效精准触发方案通过多传感器融合技术
    广州唯创电子 2025-04-10 08:53 220浏览
  • 技术原理:非扫描式全局像的革新Flash激光雷达是一种纯固态激光雷达技术,其核心原理是通过面阵激光瞬时覆盖探测区域,配合高灵敏度传感器实现全局三维成像。其工作流程可分解为以下关键环节:1. 激光发射:采用二维点阵光源(如VCSEL垂直腔面发射激光器),通过光扩散器在单次脉冲中发射覆盖整个视场的面阵激光,视场角通常可达120°×75°,部分激光雷达产品可以做到120°×90°的超大视场角。不同于传统机械扫描或MEMS微振镜方案,Flash方案无需任何移动部件,直接通过电信号控制激光发射模式。2.
    robolab 2025-04-10 15:30 119浏览
  • 行业变局:从机械仪表到智能交互终端的跃迁全球两轮电动车市场正经历从“功能机”向“智能机”的转型浪潮。数据显示,2024年智能电动车仪表盘渗透率已突破42%,而传统LED仪表因交互单一、扩展性差等问题,难以满足以下核心需求:适老化需求:35%中老年用户反映仪表信息辨识困难智能化缺口:78%用户期待仪表盘支持手机互联与语音交互成本敏感度:厂商需在15元以内BOM成本实现功能升级在此背景下,集成语音播报与蓝牙互联的WT2605C-32N芯片方案,以“极简设计+智能交互”重构仪表盘技术生态链。技术破局:
    广州唯创电子 2025-04-11 08:59 148浏览
  • 什么是车用高效能运算(Automotive HPC)?高温条件为何是潜在威胁?作为电动车内的关键核心组件,由于Automotive HPC(CPU)具备高频高效能运算电子组件、高速传输接口以及复杂运算处理、资源分配等诸多特性,再加上各种车辆的复杂应用情境等等条件,不难发见Automotive HPC对整个平台讯号传输实时处理、系统稳定度、耐久度、兼容性与安全性将造成多大的考验。而在各种汽车使用者情境之中,「高温条件」就是你我在日常生活中必然会面临到的一种潜在威胁。不论是长时间将车辆停放在室外的高
    百佳泰测试实验室 2025-04-10 15:09 88浏览
  •   卫星故障预警系统软件:卫星在轨安全的智能护盾   北京华盛恒辉卫星故障预警系统软件,作为确保卫星在轨安全运行的关键利器,集成前沿的监测、诊断及预警技术,对卫星健康状况予以实时评估,提前预判潜在故障。下面将从核心功能、技术特性、应用场景以及发展走向等方面展开详尽阐述。   应用案例   目前,已有多个卫星故障预警系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星故障预警系统。这些成功案例为卫星故障预警系统的推广和应用提供了有力支持。   核心功能   实时状态监测:
    华盛恒辉l58ll334744 2025-04-09 19:49 167浏览
  • ‌亥姆霍兹线圈‌是由两组相同的线圈组成,线圈之间的距离等于它们的半径。当电流同时流过这两个线圈时,会在它们中间形成一个几乎均匀的磁场。这种设计克服了普通线圈磁场不均匀的缺陷,能够在中心区域形成稳定、均匀的磁场‌。‌亥姆霍兹线圈的应用领域‌包括材料、电子、生物、医疗、航空航天、化学、应用物理等各个学科。由于其操作简便且能够提供极微弱的磁场直至数百高斯的磁场,亥姆霍兹线圈在各研究所、高等院校及企业中被广泛用于物质磁性或检测实验。‌亥姆霍兹线圈可以根据不同的标准进行分类‌:‌按磁场方向分类‌:‌一维亥
    锦正茂科技 2025-04-09 17:20 149浏览
  • 文/Leon编辑/侯煜‍关税大战一触即发,当地时间4月9日起,美国开始对中国进口商品征收总计104%的关税。对此,中国外交部回应道:中方绝不接受美方极限施压霸道霸凌,将继续采取坚决有力措施,维护自身正当权益。同时,中国对原产于美国的进口商品加征关税税率,由34%提高至84%。随后,美国总统特朗普在社交媒体宣布,对中国关税立刻提高至125%,并暂缓其他75个国家对等关税90天,在此期间适用于10%的税率。特朗普政府挑起关税大战的目的,实际上是寻求制造业回流至美国。据悉,特朗普政府此次宣布对全球18
    华尔街科技眼 2025-04-10 16:39 118浏览
  •     前几天同事问我,电压到多少伏就不安全了?考虑到这位同事的非电专业背景,我做了最极端的答复——多少伏都不安全,非专业人员别摸带电的东西。    那么,是不是这么绝对呢?我查了一下标准,奇怪的知识增加了。    标准的名字值得玩味——《电流对人和家畜的效应》,GB/T 13870.5 (IEC 60749-5)。里面对人、牛、尸体分类讨论(搞硬件的牛马一时恍惚,不知道自己算哪种)。    触电是电流造成的生理效应
    电子知识打边炉 2025-04-09 22:35 210浏览
  •   海上电磁干扰训练系统:全方位解析      海上电磁干扰训练系统,作为模拟复杂海上电磁环境、锻炼人员应对电磁干扰能力的关键技术装备,在军事、科研以及民用等诸多领域广泛应用。接下来从系统构成、功能特点、技术原理及应用场景等方面展开详细解析。   应用案例   系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。   一、系统构成   核心组件   电磁信号模拟设备:负责生成各类复杂的电磁信号,模拟海上多样
    华盛恒辉l58ll334744 2025-04-10 16:45 143浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦