自主造芯新突破:256TOPS算力刷新国产性能榜,功耗低至35W,首个存算一体智驾芯片两年交卷

传感器技术 2023-05-13 07:01
金磊 发自  量子位

中国芯片,再添一股新势力——

国内首款存算一体智驾芯片,正式发布!

这款12nm芯片名叫鸿途™H30,从性能表现上来看,在功耗仅为35W的情况下,最高物理算力可达256TOPS。

概括来说,就是芯片性能提升了2倍以上,但功耗却减少了超50%。

这一点,以Resnet50性能功耗为例,与国际芯片巨头英伟达主流产品做对比即可一目了然。

不过有一说一,除了“国内首款存算一体智驾芯片”之外,围绕鸿途™H30所体现的“业界第一”还不仅于此。

它的问世也成为了存算一体大算力芯片在国内的首次工程化落地。

而打造鸿途™H30背后的公司后摩智能(下文简称后摩),其自身也拥有着一个“业界第一”的标签——

国内首家存算一体大算力AI芯片公司。

更重要的是,以上种种的成绩,后摩是从自2020年底成立至今,仅仅花费2年多的时间“解锁”。

如此速度和效能之下,也令活动现场掌声不断。

不只是一颗芯片这么简单

我们进一步再来深入了解一下这款存算一体架构芯片。

许多了解芯片的小伙伴在看到“256TOPS”时,就会产生疑问:市面上不是已经有很多能够达到这个算力值的芯片了吗?

我们需要注意的是,鸿途™H30亮出来的是物理算力,并非是市面上常说的稀疏虚拟算力。

这也就意味着它一举成为了国产智驾芯片里物理算力最大的那一个。

更难能可贵的是,在拿下最大算力的同时,功耗正如我们刚才提到的,仅为35W。

如此看下来,芯片的能效比便是几倍于同类的产品了。

除此之外,在活动现场,后摩对鸿途™H30更多的细节参数做了展示:

  • 12nm工艺

  • 支持外扩Memory,宽带达128GB/s

  • 支持16路FHD Encoder/Decoder

  • 支持PCIe 4.0,x8,x4,x2,RC&EP mode

  • ……

性能指标方面,鸿途™H30与英伟达产品相比,在Resnet50 Batch=1和Batch=8上,分别达到了5.7倍和2.3倍。

计算效率方面,鸿途™H30更是拿下了11.3倍和4.6倍的成绩!

那么具备如此高性能存算IP,如何能将其利用到位,便涉及到AI处理器架构和设计的问题了。

而在活动现场,后摩也是将其背后的架构设计毫无保留地展示了出来——IPU(Intelligence Processing Unit)

从整体来看,后摩在架构设计上的规划采用了“三步走”的策略。

首先便是第一代IPU天枢架构,这是专门为自动驾驶所打造的IPU,而刚才我们提到的鸿途™H30正是基于此。

谈到这个架构是如何设计出来的,就不得不先提一下以往芯片的设计架构。

例如特斯拉FSD的集中式计算,就是非常典型的通过堆积大量计算资源来提高性能。

它就像是一个四合院,院子里啥都有,主人们在院子里可以尽情沟通交流,但问题也非常明显,就是四合院的面积就只有那么大,居住者数量就是有限的。

后来也有人提出了分布式计算的方法,把算力很大的核拆分成若干个小核;这些小核可以独立完成小任务,也可以共同完成大任务。

这种方式像是现代高层公寓,每层楼都有独立的基础生活功能,也可以方便复制和扩展;但问题是每层楼之间的沟通比较困难。

因此,后摩智能的天枢架构所采用的便是二合一的思路——结合古典中式建筑和现代高层建筑。

简单来说,每个芯片都包含4个IPU核;每个IPU核又有4个Tile;而每个Tile内部还有CPU、张量引擎、特殊功能单元、矢量处理器和多通道DMA等。

这样的架构使得AI计算不但不用在多个处理器(例如CPU,GPU,DSP)之间分配任务,甚至不用出AI核,就可以高效的完成全部端到端的计算。

这种架构还可以说是像一个综合办事大楼,走进去,一站式完成各种业务,大幅提高了效率。

总结来说,天枢架构的特点之一就是多核/多硬件线程实现计算效率与算力灵活扩展的平衡。

除此之外,它还可以摆脱系统总线的桎梏,其双环拓扑专用总线可以实现灵活的数据直传。

就像在多层空中四合院之间,建了个直接入户的电梯,可以快速做到传输。

至于后摩在未来要进一步研发的天璇架构和天玑架构,则将聚焦在扩大模型应用边界和通用人工智能。

在现场,后摩也展示了搭载鸿途™H30后无人小车上路的实测。

但如果你觉得后摩仅仅是拿出来了一块芯片,那就有点too simple了些。

在如此短促的研发时间里,它还一口气发布了力驭®域控制器和后摩大道™软件平台

力驭是后摩面向智能驾驶市场的大算力域控制器产品,据悉,只需要搭载单颗鸿途™H30,便可以满足智能驾驶多种传感器、从L2到L4所有AI计算的需求。

最后,还有一个后摩大道™软件平台,是为鸿途™H30芯片产品开发的AI软件开发平台。

它的作用便是可以让客户在使用后摩存算一体架构产品时,能够将开发、调试和部署应用的效率大幅提高。

注:后摩智能BEV模型实测

以上便是后摩第一次正式亮相所给出的主要“作业”了。

通过各种数据和效果的对比展示,其在大算力国产智驾芯片的实力可见一斑。

但更令人惊叹的,还应当属“后摩速度”——一切都在2年多时间完成。

如何在2年时间“炼”成的?

不同于美国创业公司从车库、大学宿舍开始的那般浪漫与理想,后摩的创业起点非常出乎人们的意料——沙县小吃

没错,正是在这种享受馄饨与热汤之际,几个人一拍即合,决定创业搞AI芯片。

不过赛道锁定在芯片,除了大环境的因素之外,也与小伙伴们每个人都向往“万物智能”的生活相关。

例如有人家住得特别远,若是自动驾驶成熟了,便可以边通勤边办公;还有人非常顾家,希望有个机器人把家务全包了……

那么问题来了,到底什么样的芯片才能做到无处不在、让万物实现智能?

极致的效率,毋庸置疑是非常关键的因素之一。

然而当时后摩的初创团队从科技发展历史看清的一个事实是,每1000倍的效率提升将造就一个计算时代。

若是想要达到他们理想的万物智能世界,那么算力起码也得是现今芯片计算效能的1000倍。

加之摩尔定律的逐步失效,他们便将目光聚焦到了另一种打法——换架构,搞存算一体。

团队坚定认为,这就是后摩尔时代下的破局之道:

算力得大,功耗要低,面积要小,成本还得廉。

以至于CEO吴强在现场这般回忆道:

我们太喜欢这个方向了,连公司名字都是从这而来——后摩智能。

(虽然也有人会打电话问是不是做摩托车的……)

不过讲真,存算一体这个技术在两三年前并没有像现在这般火爆。

可以说后摩成为了最早一批尝到红利的公司,也顺理成章地使其成了国内第一个搞存算一体大算力AI芯片的公司。

而之所以会将第一个落地场景放到自动驾驶,用吴强的话来说就是,“自动驾驶是万物智能美好生活的重要组成部分,人们几乎在花1/8清醒时间在开车”。

并且自动驾驶作为“集AI技术大成者”的领域,能啃下这块硬骨头,那么再拓展到其它领域也就会轻松很多。

赛道、方向、技术,在创业初期三大最重要的关键因素定下来之后,接下来就是进入更煎熬的研发阶段了。

虽说是煎熬阶段,但有一说一,对于后摩团队来说,或许都已经是驾轻就熟的事情,因为公司聚集了一帮芯片“老手”。

例如创始人吴强,博士毕业于普林斯顿大学计算机博士学位,研究方向正是高能效比计算芯片及编译器。

毕业之后,他还先后工作于Intel、AMD、Facebook等国外知名企业;值得一提的是,在AMD期间曾担任GPGPU/OpenCL创始团队核心成员。

吴强不仅拥有国外的工作经验,在2017年回国之后,也是在国内AI知名独角兽企业担任技术副总裁和CTO等职务。

在学术方面,吴强曾获第38届计算机体系架构顶会MICRO-38 唯一的一个最佳论文奖;科研成果被美国业内杂志IEEE Micro 评选为年度最有影响的12 个科技成果之一。

后摩智能创始人兼CEO,吴强

再如后摩智能联合创始人、芯片研发副总裁陈亮,本硕博毕业于清华大学,曾任海思CPU芯片资深架构师、地平线AI芯片首席架构师。

在做产品上,后摩联合创始人、产品副总裁信晓旭,具有15年以上计算芯片产品、市场和销售经验,曾任海思计算芯片产品总监。

左:陈亮;右:信晓旭

而从后摩整体研发团队构成来看,硕、博士占比70%以上;核心成员均主导过多颗世界级芯片的设计量产,类别涵盖GPU、CPU、高性能车规级AI芯片等。

更重要的是,用吴强自己的话来说,后摩的研发团队人员都是非常纯粹的人,肯吃苦、够努力。

如此来看,也就不难理解为什么能够在2年多的时间里,将存算一体芯片从0到1开花结果了。

芯片的“后摩时刻”已至

虽然芯片产品已经发布、量产,但最后我们还需要对一个问题做深入的探讨——存算一体,是否真的是正确的方向

要回答这个问题,我们还需先得知道芯片算力的发展出了什么问题。

无论是计算机、手机,还是智能手环等产品,它们内部程序运行机制都绕不开一个著名的计算体系,冯·诺依曼体系结构

它的一个特点,就是计算和存储是分离的。

若是通俗一点理解,我们可以将这个过程视为在厨房炒菜:

  • 存储器:相当于厨房里的冰箱;

  • 数据:相当于冰箱里的菜;

  • 计算器:相当于洗菜、切菜和炒菜。

那么要完成一道菜,就需要先从冰箱里把菜取出来,再去厨房里洗、切、炒。

那么问题来了,这些菜需要在存储器和计算器之间疯狂地做搬运工作,这就无形之间产生了巨大的时间开销,

若是对于较低的计算量来说,冯·诺依曼体系结构尚且还可处理,但谁能想到,在信息数据量爆炸的当下,人们对算力的需求会变得如此之大。

举个例子,若是用全卷积网络处理一张分辨率为224x224大约5万像素的图片,需要的计算量为5x109次的计算。

这个任务若是放在一个CPU核心上处理,需要足足3秒钟的时间,慢,着实太慢!

单单是这么简单的任务尚是如此,近年来随着AIGC热潮的到来,大模型成为了产学界的香饽饽,而动辄需要对上千亿参数做训练推理,需要的算力之大可见一斑。

即便现代很多芯片开始设计更复杂的多级存储结构,例如把SRAM(静态随机存储器)作为距离计算单元最近的缓存,保证最高的读写速度,但容量还是非常的有限。

例如在下图英伟达GA102 GPU中,蓝色方块区域便是缓存区域,即便看上去占了不少空间,但其实容量也就6MB而已。

这在当今主流AI任务面前,简直是大巫见小巫了。

这,就是当下算力发展所遇到的致命瓶颈。

而且就过去二十年的发展来看,处理器性能以每年大约55%的速度提升,但内存性能的提升速度每年只有10%左右。

存储速度长期滞后于计算速度,因此就导致了芯片性能难以满足AI需求的情况。

不仅如此,近年来“摩尔定律即将失效”的声音也是此起彼伏,很多人认为传统的芯片无法再胜任新的大算力任务了。

虽然业界在后来提出了GPU、多核CPU等解决方案,但依旧是无法绕开冯·诺依曼体系结构最为致命的瓶颈问题。

在如此情况之下,业界便提出了更为大胆的想法——干脆把冰箱和厨房搞到一起,让取菜、洗菜、切菜和炒菜都在一个空间里完成——即,存算一体。

对应到芯片设计,就意味着把分开的计算单元和SRAM单元重新设计,把乘加单元打散并插入到SRAM阵列当中,以此形成新的存算单元。

如此一来,每个存算单元既保留了SRAM本身的规则性,便于高速读写;又扩充了并行计算功能,实现高能效计算。

以后摩发布的鸿途™H30为例,在存算一体架构之下,便可以在每秒计算超过4x1012次。

和其它AI芯片相比,后摩存算一体的宏单元在同样能耗下提供的算力,可以直接飙升10倍!

但其实存算一体技术早在2011年就引起学术界关注,而后在2016-2017年成为学术界热议的话题。

到2019年逐渐开始受到工业界和资本的关注,彼时大家的讨论主要集中在这项技术的可靠性上。

从2020年开始,越来越多的玩家进入这个市场,并且大公司都开始在存内计算上发力,此时的存内计算已成为产业界“不得不跟进”的技术之一,大家的讨论聚焦在存内计算未来的市场空间上。

再从市场规模角度来看,量子位在《存算一体芯片深度产业报告》中曾经预测:

2030年,基于存算一体技术的大算力芯片市场规模约为67亿人民币。

由此可见,不论是从技术亦或是市场的发展和预测来看,存算一体确实是解决算力瓶颈的一大利器。

而作为率先入局的后摩智能,也给出了自己的观点:

存算一体的价值在于,它是一种比传统架构更接近人脑的计算方式,能达到远超传统方式的高计算效率,和智能驾驶终局的需求天然吻合。

2023年,会是存算一体商业落地的元年。

至此,对于芯片算力的瓶颈,后摩智能已经给出了自己的一套打法,并且已经交出了一份高分作业。

站在现今后摩尔时代的当下,或许芯片的“后摩时刻”已经到来。 


—  — 


本公众号高薪签约长期专栏作者,欢迎具备优秀写作能力的科技从业或爱好者,联系传感器小编YG18511751369(微信号)

期待下一篇10W+出自您的笔下!

 

免责声明:本文版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容!本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。 

  

 

为您发布产品,请点击“阅读原文”

 

传感器技术 制造业的未来是智能化,智能化的基础就是传感器; 互联网的方向是物联网,物联网的基石也是传感器; 关注传感器技术,获得技术资讯、产品应用、市场机会,掌握最黑科技,为中国工业导航。
评论 (0)
  • 在全球电子产业面临供应链波动、技术迭代和市场需求变化等多重挑战的背景下,安博电子始终秉持“让合作伙伴赢得更多一点”的核心理念,致力于打造稳健、高效、可持续的全球供应链体系。依托覆盖供应商管理、品质检测、智能交付的全链路品控体系,安博电子不仅能确保电子元器件的高可靠性与一致性,更以高透明的供应链管理模式,助力客户降低风险、提升运营效率,推动行业标准升级,与全球合作伙伴共同塑造更具前瞻性的产业生态。动态优选机制:构建纯净供应链生态安博电子将供应商管理视为供应链安全的根基。打造动态优选管控体系,以严格
    电子资讯报 2025-04-07 17:06 66浏览
  • 贞光科技作为三星电机车规电容代理商,针对电动汽车领域日益复杂的电容选型难题,提供全方位一站式解决方案。面对高温稳定性、高可靠性、高纹波电流和小型化等严苛要求,三星车规电容凭借完整产品矩阵和卓越技术优势,完美满足BMS、电机控制器和OBC等核心系统需求。无论技术选型、供应链保障、样品测试还是成本优化,贞光科技助力客户在电动汽车产业高速发展中占据技术先机。在电动汽车技术高速发展的今天,作为汽车电子系统中不可或缺的关键元器件,电容的选型已成为困扰许多工程师和采购人员的难题。如何在众多参数和型号中找到最
    贞光科技 2025-04-07 17:06 59浏览
  • 引言:小型化趋势下的语音芯片需求随着消费电子、物联网及便携式设备的快速发展,产品设计对芯片的小型化、高集成度和低功耗提出了更高要求。厂家凭借其创新的QFN封装技术,推出WTV系列(如WTV380)及WT2003H系列语音芯片,以超小体积、高性能和成本优势,为紧凑型设备提供理想解决方案。产品核心亮点1. QFN封装技术赋能超小体积极致尺寸:WTV380采用QFN32封装,尺寸仅4×4毫米,WT2003H系列同样基于QFN工艺,可满足智能穿戴、微型传感器等对空间严苛的场景需求。高密度集成:QFN封装
    广州唯创电子 2025-04-07 08:47 121浏览
  • 引言:POPO声的成因与影响在语音芯片应用中,WT588F08A作为一款支持DAC+功放输出的高集成方案,常因电路设计或信号处理不当,在音频播放结束后出现POPO声(瞬态噪声)。这种噪声不仅影响用户体验,还可能暴露电路设计缺陷。本文将基于实际案例,解析POPO声的成因并提供系统化的解决方案。一、POPO声的根源分析1. 功放电路状态切换的瞬态冲击当DAC输出的音频信号突然停止时,功放芯片的输入端若处于高阻态或无信号状态,其内部放大电路会因电源电压突变产生瞬态电流,通过喇叭表现为POPO声。关键因
    广州唯创电子 2025-04-07 09:01 104浏览
  • 医疗影像设备(如CT、MRI、超声诊断仪等)对PCB的精度、可靠性和信号完整性要求极高。这类设备需要处理微伏级信号、高频数据传输,同时需通过严格的EMC/EMI测试。制造此类PCB需从材料选择、层叠设计、工艺控制等多维度优化。以下是关键技术与经验分享。 1. 材料选择:高频与生物兼容性优先医疗影像设备PCB常采用 Rogers RO4000系列 或 Isola FR4高速材料,以降低介电损耗并保证信号稳定性。例如,捷多邦在客户案例中曾为某超声探头厂商推荐 Rogers RO4350B
    捷多邦 2025-04-07 10:22 98浏览
  • 在追求环境质量升级与产业效能突破的当下,温湿度控制正成为横跨多个行业领域的核心命题。作为环境参数中的关键指标,温湿度的精准调控不仅承载着人们对舒适人居环境的期待,更深度关联着工业生产、科研实验及仓储物流等场景的运营效率与安全标准。从应用场景上看,智能家居领域要求温湿度系统实现与人体节律的协同调节,半导体洁净车间要求控制温湿度范围及其波动以保障良品率,而现代化仓储物流体系则依赖温湿度的实时监测预防各种产品的腐损与锈化。温湿度传感器作为实现温湿度监测的关键元器件,其重要性正在各行各业中凸显而出。温湿
    华普微HOPERF 2025-04-07 10:05 114浏览
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 67浏览
  • 及时生产 JIT(Just In Time)的起源JIT 起源于 20 世纪 70 年代爆发的全球石油危机和由此引发的自然资源短缺,这对仰赖进口原物料发展经济的日本冲击最大。当时日本的生产企业为了增强竞争力、提高产品利润,在原物料成本难以降低的情况下,只能从生产和流通过程中寻找利润源,降低库存、库存和运输等方面的生产性费用。根据这种思想,日本丰田汽车公司创立的一种具有特色的现代化生产方式,即 JIT,并由此取得了意想不到的成果。由于它不断地用于汽车生产,随后被越来越多的许多行业和企业所采用,为日
    优思学院 2025-04-07 11:56 103浏览
  •     在研究Corona现象时发现:临界电压与介电材料表面的清洁程度有关。表面越清洁的介电材料,临界电压越高;表面污染物越多的地方,越容易“爬电”。关于Corona现象,另见基础理论第007篇。    这里说的“污染物”,定义为——可能影响介电强度或表面电阻率的固体、液体或气体(电离气体)的任何情况。    IEC 60664-1 (对应GB/T 16935.1-2023) 定义了 Pollution Degree,中文术语是“污染等
    电子知识打边炉 2025-04-07 22:06 64浏览
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 108浏览
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 125浏览
  • HDMI从2.1版本开始采用FRL传输模式,和2.0及之前的版本不同。两者在物理层信号上有所区别,这就需要在一些2.1版本的电路设计上增加匹配电路,使得2.1版本的电路能够向下兼容2.0及之前版本。2.1版本的信号特性下面截取自2.1版本规范定义,可以看到2.1版本支持直流耦合和交流耦合,其共模电压和AVCC相关,信号摆幅在400mV-1200mV2.0及之前版本的信号特性HDMI2.0及之前版本采用TMDS信号物理层,其结构和参数如下:兼容设计根据以上规范定义,可以看出TMDS信号的共模电压范
    durid 2025-04-08 19:01 49浏览
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 89浏览
  • 曾几何时,汽车之家可是汽车资讯平台领域响当当的“扛把子”。2005 年成立之初,它就像一位贴心的汽车小助手,一下子就抓住了大家的心。它不仅吸引了海量用户,更是成为汽车厂商和经销商眼中的“香饽饽”,广告投放、合作推广不断,营收和利润一路高歌猛进,2013年成功在纽交所上市,风光无限。2021年更是在香港二次上市,达到了发展的巅峰,当年3月15日上市首日,港股股价一度高达184.6港元,市值可观。然而,如今的汽车之家却陷入了困境,业务下滑明显。业务增长瓶颈从近年来汽车之家公布的财报数据来看,情况不容
    用户1742991715177 2025-04-07 21:48 77浏览
  • 文/Leon编辑/cc孙聪颖‍转手绢、跳舞、骑车、后空翻,就在宇树、智元等独角兽企业率领“机器人大军”入侵短视频时,却有资本和科技大佬向此产业泼了一盆冷水。金沙江创投管理合伙人朱啸虎近日突然对人形机器人发难,他表示“最近几个月正在批量退出人形机器人公司”。“只是买回去做研究的,或者买回去做展示的,这种都不是我们意义上的商业化,谁会花十几万买一个机器人去干这些活?”朱啸虎吐槽。不过,朱啸虎的观点很快就遭到驳斥,众擎机器人的创始人、董事长赵同阳回怼道:“(朱啸虎)甚至问出了人形机器人在这个阶段有什么
    华尔街科技眼 2025-04-07 19:24 110浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦