面对AI大算力和能耗这两大挑战,国产AI芯片公司能否想出“出奇”之道?对于国内厂商来说,要在成熟工艺上以低成本实现500T以上的算力,就必须采用“出奇“的架构。存算一体+chiplet组合似乎是一种可行的实现方式......

Fabless100系列技术和应用直播 – 高性能计算的AI设计挑战及解决方案

AI大算力芯片的“出奇”想法

在最近由AspenCore主办的2023中国IC领袖峰会上,中国半导体行业协会IC设计分会理事长魏少军教授在《集成电路发展中的“正”与“奇”》的主题演讲中提到,中国半导体产业的发展要在“守正”的市场发展道路上稳步前行,同时也需要在新的赛道“出奇”。比如在高性能计算领域,在先进工艺、技术和芯片产品受到外界限制的情况下,我们如何利用国产工艺技术实现创新而跟全球高性能计算和AI发展保持同步甚至超越?更具体一点,就目前炒作火热的AIGC大模型所需要的大算力AI芯片来说,能否利用我们现在可用的工艺和技术来开发在性能上可以跟英伟达GPGPU对标的AI芯片呢?一些“守正且出奇”的技术包括:软件定义芯片、chiplet、3D堆叠和先进封装、存算一体等。

自从OpenAI的ChatGPT于2022年11月推出以来,AIGC迅速在全球掀起一股热潮。与OpenAI有深度合作的微软在BING搜索方面有了明显的收益,谷歌和百度等搜索引擎和互联网巨头纷纷发布各自的大语言模型(LLM)。在这些热潮的背后是GPU芯片的疯狂购买囤货,因为训练LLM需要庞大的算力支持。要支撑这类AI大模型的训练和基于这些模型的AIGC应用,需要投入数十亿美元的资金,同时还需要巨大的电力供应,因为算力强大的GPGPU耗电量也十分惊人。

据统计预测,全球算力需求呈现高速发展态势。2021年,全球计算设备算力总规模达到615EFLOPS(每秒一百京次(=10^18)浮点运算);到2025年,全球算力规模将达6.8 ZFLOPS( 每秒十万京(=10^21)次的浮点运算 ),与2020年相比提升30倍;到2030年,有望增至56ZFLOPS。算力翻倍时间在明显缩短,大模型出现后,带来了新的算力增长趋势,平均算力翻倍时间约为9.9个月。

伴随着算力的提升,数据中心和AI服务器的耗电量也大幅提升。2022年Intel第四代服务器处理器单CPU功耗已突破350瓦,英伟达单GPU芯片功耗突破700瓦,AI集群算力密度普遍达到50kW/柜。根据ChatGPT在使用访问阶段所需算力和耗电费用估计,使用英伟达DGX A100服务器的标准机柜需要542台(每台机柜的功率为45.5kw),折算为每日电费大约4.7万美元。

对国内AI应用企业来说,即便资金不是问题,能否购买到最先进的GPU芯片也是个大问题。即便部署了足够的GPU和服务器机柜,日常运营的耗电成本也不容小觑。尽管最近两年有不少国产GPU初创公司发布性能不错的GPU芯片,但到目前为止还难以跟英伟达的GPU相提并论。面对算力和能耗这两大挑战,国产AI芯片公司能否想出“出奇”之道?

“存算一体”冲破能耗墙

“存算一体”技术可以解决传统冯诺伊曼架构处理器所面临的三堵墙:存储墙、能耗墙、编译墙。存算一体架构没有深度多层级存储的概念,所有的计算都放在存储器内实现,这就从根本上消除了因为存算异构带来的存储墙及相应的额外开销;存储墙的消除可大量减少数据搬运,不但提升了数据传输和处理速度,而且能效比得以数倍提升,这意味着支持与传统架构处理器同等算力所需的功耗可以大大降低;存储和计算单元之间的调用和数据搬运需要复杂的编程模型,而存算一体的数据状态都是编译器可以感知的,因此编译效率很高,可以绕开传统架构的编译墙(生态墙)。

在存算一体这一赛道上,最早是美国的Mythic公司在2010年左右推出了存算一体芯片,国内在2017年左右出现了存算一体技术路径的创业团队,到现在为止已有数家,比如知存科技、千芯科技、苹芯科技、九天睿芯、后摩智能和亿铸科技等。但这些初创公司在存储器的选择上出现了三种主要方向,最早从传统存储器开始,如Flash,SRAM再到新型忆阻器ReRAM。算力也从微小算力(<1T)、500T到1P的大算力。存算一体最大的优势在于高能效比,但微小算力场景与大算力场景最大的应用区别是对计算精度要求的满足及成本。这也决定着这些存算一体初创公司通向了不同的应用场景,比如九天睿芯的芯片产品主要面向小算力的边缘和端侧应用。而ChatGPT等大模型的出现势必对AI大算力芯片提出新的要求。

基于“存算一体”架构开发的AI芯片在克服能耗挑战方面有很大的潜力,但如何实现高性能和大算力呢?

存算一体+chiplet也许是一种可行的“出奇”之道。

(有关chiplet和2.5D/3D堆叠先进封装的技术和应用不在这里详述,感兴趣的读者可以点击链接详细了解)

ReRAM:材料、工艺和AI应用潜力

在传统冯诺依曼计算架构中,占据主要地位的DRAM和Flash等传统存储技术面临技术瓶颈,面对低功耗和高性能的需求,无法实现根本性的改善,而新型存储技术成为业界重点布局与探索的方向。经过10多年的努力,MRAM(磁性存储器)、PCRAM(相变存储器)、FRAM(铁电存储器)和ReRAM(阻变存储器)等新型存储技术也逐步走出实验室,进入试用甚至商用阶段。

ReRAM(阻变存储器,或忆阻器)是以非导性材料的电阻在外加电场作用下,在高阻态和低阻态之间实现可逆转换为基础的非易失性存储器。ReRAM包括许多不同的技术类别,比如氧空穴存储器(OxRAM)、导通桥联存储器(CBRAM)等。ReRAM的单元面积极小,可做到4F²,读写速度是NAND Flash的1000倍,同时功耗可降低10倍以上。

导通桥联CBRAM基本结构。(来源:Crossbar)

由于电阻切换机制基于金属导丝,Crossbar ReRAM(CBRAM)单元非常稳定,能够承受从-40°C到125°C的温度波动,写周期为1M+,在85°C的温度下可保存10年。从密度、能效比、成本、工艺制程和良率各方面综合衡量,ReRAM存储器在目前已有的新型存储器中具备明显优势。

基于导通桥联的ReRAM具有高达1000倍的低/高阻态差异,使其不易受外界运行环境的干扰影响,具有很强的稳定性。同时,以ReRAM组成的存算阵列单元因为阻态区分度大,所实现的存内计算可以更好地满足大算力应用场景对算力、精度、能效比和可靠性的严格要求。

ReRAM以其密度增长空间大、生产工艺与CMOS兼容等优势,吸引了国内外众多IP技术企业、大型晶圆代工厂、传统存储企业和半导体初创企业投入到其商业化进程中。目前,台积电、联电、Crossbar、昕原半导体、松下、东芝、索尼、美光、海力士和富士通等厂商都在积极开展ReRAM技术的研究和产业化推进。 国内新型存储器ReRAM的生产工艺及产线已经实现了规模化量产商用。

基于ReRAM工艺的芯片主要用于存储和存算一体两个方面,其中采用”存算一体“结构和技术的AI芯片将有可能实现AI大算力突破,成为可以应对AIGC大算力挑战的GPGPU有力竞争者,有望在AIoT、智能汽车、数据中心和高性能计算等方面获得广泛的应用。存算一体AI芯片初创公司亿铸科技基于忆阻器这种新型存储器件,创新性地采用全数字化的实现方式,将存算一体架构应用于AI大算力芯片,从而让存算一体真正在高精度、大算力AI方向实现商用落地。

存算一体+Chiplet助力AI算力第二增长曲线

由于AI模型规模不断扩大,用于深度学习的存内计算 (IMC) 单芯片方案在芯片面积、良率和片上互连成本等方面面临着巨大挑战。存算一体AI芯片能否借助芯粒(chiplet)和2.5D/3D堆叠封装技术实现异构集成,从而形成大型计算系统,提供超越单一架构IMC芯片的大型深度学习模型训练和推理方案?

美国亚利桑那州立大学的学者于2021年发布了一种基于chiplet 的IMC架构基准测试仿真器SIAM,用于评估这种新型架构在AI大模型训练上的潜力。SIAM集成了器件、电路、架构、片上网络(NoC)、封装网络(NoP)和DRAM访问模型,以实现一种端到端的高性能计算系统。SIAM 在支持深度神经网络 (DNN) 方面具有可扩展性,可针对各种网络结构和配置进行定制。其研究团队通过使用 CIFAR-10、CIFAR-100 和 ImageNet 数据集对不同的先进DNN进行基准测试来展示SIAM的灵活性、可扩展性和仿真速度。据称,相对于英伟达V100和T4 GPU,通过SIAM获得的chiplet +IMC架构显示ResNet-50在ImageNet数据集上的能效分别提高了130和72。

SIAM采用基于chiplet的 IMC 架构。 (来源:SIAM/GOKUL KRISHNAN)

上图显示了SIAM使用的基于同构chiplet的IMC架构。整个架构由一系列chiplet组成,其中包括IMC计算单元、全局累加器、全局缓冲区和DRAM。Chiplet阵列利用封装上网络(NoP)实现互联。SIAM支持基于SRAM或RRAM的IMC Crossbar存算单元,这些存算单元阵列组成处理元素(PE);PE阵列又构成IMC Tile阵列,然后构成IMC chiplet。

尽管SIAM仿真器仅针对同质架构或定制架构,但为异构集成实现的存算一体+Chiplet架构提供了很有价值的设计思路。就存算一体、Chiplet和2.5D/3D先进封装技术的发展而言,国内厂商跟国外同行基本处于同一起跑线上。在兼容CMOS的国产ReRAM工艺上,通过Chiplet和先进封装集成IMC单元、GPU和CPU等不同工艺节点的处理单元,来实现大算力AI芯片以应对算力和功耗的挑战,看来是可行的。

有业界专家总结出AI算力增长的阶段性曲线,自2018年至今的GPGPU和AI芯片算力增长属于第一增长曲线阶段。这一阶段的参与者有英伟达和AMD等国际GPU巨头,也有众多国内厂商参与其中,包括百度昆仑芯、华为海思、天数智芯、寒武纪和壁仞科技等。这些公司所采用的晶圆工艺从14nm到5nm不等;算力从130T到485T;功耗从70W到150W。这一阶段的AI芯片的共同点在于都是采用传统的处理器架构,伴随着算力的提升,功耗和成本也随之上升。工艺节点到了5nm,一颗芯片的研发成本以亿美元计算,不是每一家公司都能够支撑得起的。即便有这个实力可以继续支撑下去,但算力与功耗的矛盾也是难以解决的,因为处理器架构在本质上决定了其局限性。

对于国内厂商来说,要在成熟工艺上以低成本实现500T以上的算力,就必须采用“出奇“的架构。存算一体+chiplet组合似乎是一种可行的实现方式,据称亿铸科技正在这条路上探索,其第一代存算一体AI大算力商用芯片可实现单卡算力500T以上,功耗在75W以内。也许这将开启AI算力第二增长曲线的序幕。

编者注:本文是AspenCore分析师团队将要发布的2023《60家国产AI芯片厂商调研分析报告》的一部分,想阅读完整AI芯片及其它Fabless100系列行业分析报告的朋友请:点击链接(https://aspencore.mike-x.com/EgIXY )在线提交申请,或者扫描下面的二维码,以免费获取完整PDF版报告。

责编:Steve
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
点击蓝字 关注我们准确的图像深度和细节对于安保摄像头、人脸识别设备和机器视觉设备至关重要,可以提供更真实且高保真的观看体验。为在具体应用中达到这一效果,需要具备某些图像传感器功能,其中之一就是自适应局
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
展位信息深圳跨境电商展览会(CCBEC)时间:2024年9月11-13日 9:30-17:30地点:深圳国际会展中心(宝安)展馆:16号馆 16D73/16D75 展位报名注册准备好“观众注册”入场二
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
随着汽车智能化升级进入深水区,车载ECU(域)以及软件复杂度呈现指数级上升趋势。尤其是多域、跨域和未来的中央电子架构的普及,以及5G/V2X等车云通信的增强,如何保障整车的信息与网络安全,以及防范外部