面对AI大算力和能耗这两大挑战,国产AI芯片公司能否想出“出奇”之道?对于国内厂商来说,要在成熟工艺上以低成本实现500T以上的算力,就必须采用“出奇“的架构。存算一体+chiplet组合似乎是一种可行的实现方式......

Fabless100系列技术和应用直播 – 高性能计算的AI设计挑战及解决方案

AI大算力芯片的“出奇”想法

在最近由AspenCore主办的2023中国IC领袖峰会上,中国半导体行业协会IC设计分会理事长魏少军教授在《集成电路发展中的“正”与“奇”》的主题演讲中提到,中国半导体产业的发展要在“守正”的市场发展道路上稳步前行,同时也需要在新的赛道“出奇”。比如在高性能计算领域,在先进工艺、技术和芯片产品受到外界限制的情况下,我们如何利用国产工艺技术实现创新而跟全球高性能计算和AI发展保持同步甚至超越?更具体一点,就目前炒作火热的AIGC大模型所需要的大算力AI芯片来说,能否利用我们现在可用的工艺和技术来开发在性能上可以跟英伟达GPGPU对标的AI芯片呢?一些“守正且出奇”的技术包括:软件定义芯片、chiplet、3D堆叠和先进封装、存算一体等。

自从OpenAI的ChatGPT于2022年11月推出以来,AIGC迅速在全球掀起一股热潮。与OpenAI有深度合作的微软在BING搜索方面有了明显的收益,谷歌和百度等搜索引擎和互联网巨头纷纷发布各自的大语言模型(LLM)。在这些热潮的背后是GPU芯片的疯狂购买囤货,因为训练LLM需要庞大的算力支持。要支撑这类AI大模型的训练和基于这些模型的AIGC应用,需要投入数十亿美元的资金,同时还需要巨大的电力供应,因为算力强大的GPGPU耗电量也十分惊人。

据统计预测,全球算力需求呈现高速发展态势。2021年,全球计算设备算力总规模达到615EFLOPS(每秒一百京次(=10^18)浮点运算);到2025年,全球算力规模将达6.8 ZFLOPS( 每秒十万京(=10^21)次的浮点运算 ),与2020年相比提升30倍;到2030年,有望增至56ZFLOPS。算力翻倍时间在明显缩短,大模型出现后,带来了新的算力增长趋势,平均算力翻倍时间约为9.9个月。

伴随着算力的提升,数据中心和AI服务器的耗电量也大幅提升。2022年Intel第四代服务器处理器单CPU功耗已突破350瓦,英伟达单GPU芯片功耗突破700瓦,AI集群算力密度普遍达到50kW/柜。根据ChatGPT在使用访问阶段所需算力和耗电费用估计,使用英伟达DGX A100服务器的标准机柜需要542台(每台机柜的功率为45.5kw),折算为每日电费大约4.7万美元。

对国内AI应用企业来说,即便资金不是问题,能否购买到最先进的GPU芯片也是个大问题。即便部署了足够的GPU和服务器机柜,日常运营的耗电成本也不容小觑。尽管最近两年有不少国产GPU初创公司发布性能不错的GPU芯片,但到目前为止还难以跟英伟达的GPU相提并论。面对算力和能耗这两大挑战,国产AI芯片公司能否想出“出奇”之道?

“存算一体”冲破能耗墙

“存算一体”技术可以解决传统冯诺伊曼架构处理器所面临的三堵墙:存储墙、能耗墙、编译墙。存算一体架构没有深度多层级存储的概念,所有的计算都放在存储器内实现,这就从根本上消除了因为存算异构带来的存储墙及相应的额外开销;存储墙的消除可大量减少数据搬运,不但提升了数据传输和处理速度,而且能效比得以数倍提升,这意味着支持与传统架构处理器同等算力所需的功耗可以大大降低;存储和计算单元之间的调用和数据搬运需要复杂的编程模型,而存算一体的数据状态都是编译器可以感知的,因此编译效率很高,可以绕开传统架构的编译墙(生态墙)。

在存算一体这一赛道上,最早是美国的Mythic公司在2010年左右推出了存算一体芯片,国内在2017年左右出现了存算一体技术路径的创业团队,到现在为止已有数家,比如知存科技、千芯科技、苹芯科技、九天睿芯、后摩智能和亿铸科技等。但这些初创公司在存储器的选择上出现了三种主要方向,最早从传统存储器开始,如Flash,SRAM再到新型忆阻器ReRAM。算力也从微小算力(<1T)、500T到1P的大算力。存算一体最大的优势在于高能效比,但微小算力场景与大算力场景最大的应用区别是对计算精度要求的满足及成本。这也决定着这些存算一体初创公司通向了不同的应用场景,比如九天睿芯的芯片产品主要面向小算力的边缘和端侧应用。而ChatGPT等大模型的出现势必对AI大算力芯片提出新的要求。

基于“存算一体”架构开发的AI芯片在克服能耗挑战方面有很大的潜力,但如何实现高性能和大算力呢?

存算一体+chiplet也许是一种可行的“出奇”之道。

(有关chiplet和2.5D/3D堆叠先进封装的技术和应用不在这里详述,感兴趣的读者可以点击链接详细了解)

ReRAM:材料、工艺和AI应用潜力

在传统冯诺依曼计算架构中,占据主要地位的DRAM和Flash等传统存储技术面临技术瓶颈,面对低功耗和高性能的需求,无法实现根本性的改善,而新型存储技术成为业界重点布局与探索的方向。经过10多年的努力,MRAM(磁性存储器)、PCRAM(相变存储器)、FRAM(铁电存储器)和ReRAM(阻变存储器)等新型存储技术也逐步走出实验室,进入试用甚至商用阶段。

ReRAM(阻变存储器,或忆阻器)是以非导性材料的电阻在外加电场作用下,在高阻态和低阻态之间实现可逆转换为基础的非易失性存储器。ReRAM包括许多不同的技术类别,比如氧空穴存储器(OxRAM)、导通桥联存储器(CBRAM)等。ReRAM的单元面积极小,可做到4F²,读写速度是NAND Flash的1000倍,同时功耗可降低10倍以上。

导通桥联CBRAM基本结构。(来源:Crossbar)

由于电阻切换机制基于金属导丝,Crossbar ReRAM(CBRAM)单元非常稳定,能够承受从-40°C到125°C的温度波动,写周期为1M+,在85°C的温度下可保存10年。从密度、能效比、成本、工艺制程和良率各方面综合衡量,ReRAM存储器在目前已有的新型存储器中具备明显优势。

基于导通桥联的ReRAM具有高达1000倍的低/高阻态差异,使其不易受外界运行环境的干扰影响,具有很强的稳定性。同时,以ReRAM组成的存算阵列单元因为阻态区分度大,所实现的存内计算可以更好地满足大算力应用场景对算力、精度、能效比和可靠性的严格要求。

ReRAM以其密度增长空间大、生产工艺与CMOS兼容等优势,吸引了国内外众多IP技术企业、大型晶圆代工厂、传统存储企业和半导体初创企业投入到其商业化进程中。目前,台积电、联电、Crossbar、昕原半导体、松下、东芝、索尼、美光、海力士和富士通等厂商都在积极开展ReRAM技术的研究和产业化推进。 国内新型存储器ReRAM的生产工艺及产线已经实现了规模化量产商用。

基于ReRAM工艺的芯片主要用于存储和存算一体两个方面,其中采用”存算一体“结构和技术的AI芯片将有可能实现AI大算力突破,成为可以应对AIGC大算力挑战的GPGPU有力竞争者,有望在AIoT、智能汽车、数据中心和高性能计算等方面获得广泛的应用。存算一体AI芯片初创公司亿铸科技基于忆阻器这种新型存储器件,创新性地采用全数字化的实现方式,将存算一体架构应用于AI大算力芯片,从而让存算一体真正在高精度、大算力AI方向实现商用落地。

存算一体+Chiplet助力AI算力第二增长曲线

由于AI模型规模不断扩大,用于深度学习的存内计算 (IMC) 单芯片方案在芯片面积、良率和片上互连成本等方面面临着巨大挑战。存算一体AI芯片能否借助芯粒(chiplet)和2.5D/3D堆叠封装技术实现异构集成,从而形成大型计算系统,提供超越单一架构IMC芯片的大型深度学习模型训练和推理方案?

美国亚利桑那州立大学的学者于2021年发布了一种基于chiplet 的IMC架构基准测试仿真器SIAM,用于评估这种新型架构在AI大模型训练上的潜力。SIAM集成了器件、电路、架构、片上网络(NoC)、封装网络(NoP)和DRAM访问模型,以实现一种端到端的高性能计算系统。SIAM 在支持深度神经网络 (DNN) 方面具有可扩展性,可针对各种网络结构和配置进行定制。其研究团队通过使用 CIFAR-10、CIFAR-100 和 ImageNet 数据集对不同的先进DNN进行基准测试来展示SIAM的灵活性、可扩展性和仿真速度。据称,相对于英伟达V100和T4 GPU,通过SIAM获得的chiplet +IMC架构显示ResNet-50在ImageNet数据集上的能效分别提高了130和72。

SIAM采用基于chiplet的 IMC 架构。 (来源:SIAM/GOKUL KRISHNAN)

上图显示了SIAM使用的基于同构chiplet的IMC架构。整个架构由一系列chiplet组成,其中包括IMC计算单元、全局累加器、全局缓冲区和DRAM。Chiplet阵列利用封装上网络(NoP)实现互联。SIAM支持基于SRAM或RRAM的IMC Crossbar存算单元,这些存算单元阵列组成处理元素(PE);PE阵列又构成IMC Tile阵列,然后构成IMC chiplet。

尽管SIAM仿真器仅针对同质架构或定制架构,但为异构集成实现的存算一体+Chiplet架构提供了很有价值的设计思路。就存算一体、Chiplet和2.5D/3D先进封装技术的发展而言,国内厂商跟国外同行基本处于同一起跑线上。在兼容CMOS的国产ReRAM工艺上,通过Chiplet和先进封装集成IMC单元、GPU和CPU等不同工艺节点的处理单元,来实现大算力AI芯片以应对算力和功耗的挑战,看来是可行的。

有业界专家总结出AI算力增长的阶段性曲线,自2018年至今的GPGPU和AI芯片算力增长属于第一增长曲线阶段。这一阶段的参与者有英伟达和AMD等国际GPU巨头,也有众多国内厂商参与其中,包括百度昆仑芯、华为海思、天数智芯、寒武纪和壁仞科技等。这些公司所采用的晶圆工艺从14nm到5nm不等;算力从130T到485T;功耗从70W到150W。这一阶段的AI芯片的共同点在于都是采用传统的处理器架构,伴随着算力的提升,功耗和成本也随之上升。工艺节点到了5nm,一颗芯片的研发成本以亿美元计算,不是每一家公司都能够支撑得起的。即便有这个实力可以继续支撑下去,但算力与功耗的矛盾也是难以解决的,因为处理器架构在本质上决定了其局限性。

对于国内厂商来说,要在成熟工艺上以低成本实现500T以上的算力,就必须采用“出奇“的架构。存算一体+chiplet组合似乎是一种可行的实现方式,据称亿铸科技正在这条路上探索,其第一代存算一体AI大算力商用芯片可实现单卡算力500T以上,功耗在75W以内。也许这将开启AI算力第二增长曲线的序幕。

编者注:本文是AspenCore分析师团队将要发布的2023《60家国产AI芯片厂商调研分析报告》的一部分,想阅读完整AI芯片及其它Fabless100系列行业分析报告的朋友请:点击链接(https://aspencore.mike-x.com/EgIXY )在线提交申请,或者扫描下面的二维码,以免费获取完整PDF版报告。

责编:Steve
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情