打破两堵“墙”,存算一体芯片如何发挥作用?

半导体产业纵横 2021-12-09 18:00

 

所有事物的发展都代表了当下时代对其提出的新要求,半导体行业也没有例外。

 

前日,阿里达摩院发布了全球首款使用混合键合3D堆叠技术实现存算一体的芯片,在行业内引起了不小的轰动。存算一体技术作为打破存储墙和功耗墙的重要解决方案,又一次站在了聚光灯下。

 

两堵”墙”:存算一体技术发展的必要性

 

存算一体的发展是时代发展的要求,现有冯·诺伊曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。

 

在冯·诺伊曼架构的核心设计中计算机的组成架构包括运算器、控制器、存储器、输入设备、输出设备五部分。

 

冯·诺伊曼架构,来源:维基百科

 

在冯·诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存,这样才能输出。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。由于工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来越大。数据显示,从 1980年到 2000年,处理器和存储器的速度失配以每年50%的速率增加。

 

存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。

 

此外,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。

 

再加上人工智能的发展,需要运算的数据量开始了极大的增长。人工智能算法是一个很庞大和复杂的网络,包含大量的图像数据和权重参数,计算的过程中又会产生大量的数据,数据需要在计算单元和存储单元之间进行频繁的移动,这迫切需要合适的手段来减少数据移动及其带来的性能和功耗开销。

 

自1945年提出的冯·诺伊曼架构,其本身仍是现代计算机的主要架构,在此架构下关于存算流程的弯路,在当时是合理的。但是在人工智能飞速发展的现在,却有必要颠覆它。

 

于是,业界开始寻找弱化或消除存储墙及功耗墙问题的方法,开始考虑从聚焦计算的冯·诺伊曼体系结构转向存算一体结构。

 

近存储计算还是存内计算?

 

为了解决以上问题,存算一体芯片应运而生。其核心思想是将部分或全部的计算移到存储中,计算单元和存储单元集成在同一个芯片,在存储单元内完成运算,让存储单元具有计算能力。这种极度近邻的方式很大程度上降低了数据移动的延迟和功耗,解决了存储墙问题。

 

阿里达摩院发布的2020年十大科技趋势里,它认为存算一体是突破AI算力瓶颈的关键技术,朝着这个趋势阿里发布了近存储计算芯片。近存储计算与存内计算都是存算一体的实现方式,但是概念不同。

 

近存储计算指的是计算操作由位于存储芯片外部的独立计算芯片完成。通过采用先进的3D封装方式把内存和计算单元封装在一起,可以达到几千根甚至上万根连线,两者之间的带宽增加,提高了数据搬运速度。近存储计算本质上来说还没有做到真正的存算“一”体。


它从一开始设计计算芯片和存储芯片的时候,就设计好了链接两方的通路,将数据运输距离极致缩短。设计芯片本就相当于用这些晶体管在指甲盖大小的面积上建造一座城市,现在是需要重新设计两座城市,并提前在中间设计好互相链接的通道,这是难点,也是竞争力。阿里发布的,正是采用这个技术的存算一体芯片。

 

存内计算指的是通过在存储器颗粒上嵌入算法,使得存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有独立的计算单元。

 

在这种方式下,数据不需要单独的运算部件来完成计算,而是在存储单元中完成存储和计算,消除了数据访存延迟和功耗,是一种真正意义上的存储与计算融合。同时,由于计算完全依赖于存储,因此可以开发更细粒度的并行性,获得更高的性能和能效,存算一体对于符合的应用会带来较高的性能收益和能效收益,这种方式尤其适用于人工智能应用。

 

积极布局的龙头与勇往直前的初创公司

 

存算一体仍旧是解决存储墙和功耗墙问题的重要技术,一些处于行业领先地位的半导体公司正在积极进行自研,还有一些公司通过投资初创公司来布局存算一体技术。

 

国外巨头中,三星早在2019年就阐述了其在2030年希望完成的愿景:当AI半导体技术变得更加复杂时,存储器和处理器将最终集成为一体。今年2月,三星发布了HBM-PIM存内计算技术,在高带宽内存 (HBM) 配置中集成内存处理 (PIM) 。PIM 将可编程计算单元 (PCU) 的 AI 引擎集成到内存核心中来处理某些逻辑函数,PIM 将刺激需要持续性能改进的 AI 应用程序的使用量增长。与现有的内存解决方案相比,三星的 PIM 理论上可以通过可编程计算单元 (PCU) 提高 4 倍的性能。

 

此外,IBM在2016年就透露了其关于存内计算的研发计划,提出了混合精度内存计算的新概念。

 

美国存算一体AI芯片初创公司Mythic发布的存算一体芯片,依靠模拟计算技术,将足够的存储与大量并行计算单元打包在芯片上,以最大化内存带宽并减少数据移动的能力。在今年C轮融资中,Mythic筹集7000万美元,自成立以来Mythic的总融资额已达到1.65亿美元。

 

此外,美国另一家专注于语音识别的存算一体AI芯片公司Syntiant也受到微软、亚马逊、应用材料、英特尔、摩托罗拉和博世的支持。

 

在国内企业中,看准存算一体趋势的阿里也激情入局,打出了一张好牌。而阿里也不止步于此,近存储技术之后,阿里还将向存内计算技术进发。

 

除了阿里外,众多初创公司也努力在存算一体这个赛道狂奔,一些厂商也通过投资初创公司来布局存算一体技术,还包括知存科技、后摩智能、闪亿半导体等初创公司。

 

知存科技于2017年成立,目前知存推出国际首个存算一体加速器WTM1001和首个存算一体SoC芯片WTM2101。今年,知存科技获得了华为哈勃的投资。知存科技已经获得五轮产业资本领投融资,累计融资3亿元。

 

闪亿半导体作为该领域国产化芯片的先行者,于2017年7月创立,创始团队分别毕业于清华大学和北京大学,闪亿专注于研发、生产最先进的存储-运算阵列SoC芯片,聚焦人工智能计算。其在2019年10月发布了其首款存算一体芯片,该公司负责人鲁辞莽表示,这款芯片在运行效率上能提高10TOPS/W,成本比传统AI芯片方案下降超一半。

 

后摩智能更是于今年完成3亿元融资,资金将用来加速推动存算一体技术落地,作为国内首家采用存算一体技术打造大算力芯片的公司,后摩智能也拥有充满野心的愿景:打造出具有“十倍效应”的AI芯片, 满足真正人工智能时代的超大算力需求,用无限算力去改变世界。

 

存算一体的荆棘之路

 

当前,存算一体芯片产业还算不上成熟,在产业链方面仍旧存在上游支撑不足,下游应用不匹配的诸多挑战。在芯片的设计阶段,另外由于存算一体芯片和常规的芯片设计方案有所不同,目前市面上也没有成熟的专用EDA工具辅助设计和仿真验证;芯片流片之后,没有成熟的工具协助测试;在芯片落地应用阶段,暂时没有专用的软件与之匹配。

 

类脑技术暂时遥不可及,存算一体看起来是目前问题的较优解。技术的发展来源于日益增长的需求,考虑如何进行创新与创造,如何完善重要技术的生态链,是行业上下游厂商应该考虑的问题。







半导体产业纵横 (微信号: ICViews)半导体产业纵横是神州数码数智创新+平台下的自媒体账号,立足产业视角,提供及时、专业、深度的前沿洞见、技术速递、趋势解析,赋能中国半导体产业,我们一直在路上。
评论
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 84浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 141浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 85浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 102浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 109浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 51浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 79浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 50浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 71浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 71浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 88浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦