HBM(High Bandwidth Memory,高带宽内存)是一款新型的CPU/GPU内存芯片,其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。该内存技术突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案,也契合了半导体技术小型化、集成化的发展趋势。
过去10年里,HBM技术性能不断升级迭代,已经成为高性能计算领域重要的技术基石之一。2023年初以来,以ChatGPT为代表的AI大模型催生了巨量的算力需求,使HBM成为整个存储芯片行业为数不多的比较景气的细分市场。尽管目前HBM3E还在进行性能验证,但HBM4相关技术创新竞赛已经在各大存储原厂之间展开。
据悉,目前各大存储大厂均在开发采用更宽的2048 bit接口的HBM4内存技术。其中,三星、SK海力士还对外公开了HBM4的时间推进表,美光科技则开启了暂名为HBMnext的下一代 HBM 内存的开发。由此可见,随着AI技术应用不断深化发展,HBM4时代即将到来。
HBM4将采用2048位内存接口
过去数十年来,因处理器与存储器的工艺、封装、需求的不同,二者之间的性能差距越来越大。有数据显示,处理器和存储器的速度失配以每年50%的速率增加。这就导致一个非常尴尬的问题:存储器数据访问速度跟不上处理器的数据处理速度,即像在一个巨大的漏斗中,无论处理器灌进去多少数据,但存储器都只能“细水长流”地进行数据传输。处理器和存储器之间狭窄的数据交换通道,由此导致两大难题:内存墙和能耗墙。
2023年,在AI技术应用的推动下,数据呈现出爆炸式的增长,大幅度推升了算力需求,进而使内存墙对计算速度的影响愈发显现。据悉,在AI大模型领域,未来AI服务器的主要需求将从训练侧向推理侧倾斜。而根据IDC的预测,到2026年,AIGC的算力62.2%将作用于模型推理。同时,预计到2025年,智能算力需求将达到当前的100倍。
因此,在此背景下,减小内存墙的影响,提升内存带宽成为存储芯片行业聚焦的关键问题。其中,HBM内存成为解决当前AI算力需求大增问题的主要解决方案之一。三星电子预计,2024年HBM市场将比今年增长一倍以上。SK hynix也预计,未来五年,HBM的需求复合年增长率将达到82%。
据悉,自2015年以来,从HBM1到HBM3e各种更新和改进中,HBM在所有迭代中都保留了相同的1024位(每个堆栈)接口,即具有以相对适中的时钟速度运行的超宽接口。然而,随着内存传输速率要求不断提高,尤其是在DRAM单元的基础物理原理没有改变的情况下,这一速度将无法满足未来AI场景下的数据传输要求。为此,下一代HBM4需要对高带宽内存技术进行更实质性的改变,即从更宽的2048位内存接口开始。
毫无疑问,接口宽度从每堆栈1024位增加到每堆栈2048位,将使得HBM4具备的变革意义。据悉,采用2048位内存接口,理论上也可以使传输速度再次翻倍。例如,英伟达的旗舰Hopper H100 GPU,搭配的六颗HBM3达到6144-bit位宽。如果内存接口翻倍到2048位,英伟达理论上可以将芯片数量减半到三个,并获得相同的性能。
当前,生成式人工智能已经成为推动DRAM市场增长的关键因素,与处理器一起处理数据的HBM的需求也必将增长。未来,随着AI技术不断演进,HBM将成为数据中心的标准配置,而以企业应用为重点场景的存储卡供应商期望提供更快的接口。
HBM4并非容易
尽管HBM4将有大突破,但HBM4仍然面临诸多挑战,其高带宽离不开各种基础技术和先进设计工艺的支持。
据悉,HBM主要是通过硅通孔(Through Silicon Via,简称“TSV”)技术进行芯片堆叠,以增加吞吐量并克服单一封装内带宽的限制,将数个DRAM裸片像楼层一样垂直堆叠。在HBM4技术实现上,一个模块中堆叠更多的内存芯片的技术复杂性必然将进一步提高,主要难题在于需要增加硅通孔数量并缩小凸块间距。
HBM裸片之间用TSV技术连接 图源:AMD官网
比如,在DRAM堆栈方面,2048位内存接口将需要显著增加穿过内存堆栈的硅通孔数量。同时,外部芯片接口需要将凸块间距缩小到远低于55微米,同时显著增加微凸块总数(HBM3目前大约3982个凸块数量)。
同时,HBM4还需在一个模块中堆叠多达16个内存芯片,这为该技术增加了一些额外的复杂性。
此外,先进封装技术在HBM技术上起到至关重要的作用。以台积电CoWoS先进封装为例,该封装技术是目前HBM与CPU/GPU处理器集成的主流方案。为了实现HBM4技术以及更快的数据传输速率,目前台积电在先进封装技术已经与三星、SK海力士和美光等进行协同合作,在确保其先进封装技术可以支持HBM4的同时,同时让RDL或中介器等组件也应具备相应的性能。
今年初,三星专门成立高级封装团队,重点研发与推进2.5D和 3D尖端封装解决方案。9月,三星发布了32Gb DDR5 DRAM内存,通过相同封装尺寸的架构改进,实现了16Gb DRAM 容量的两倍,从而无需TSV工艺即可制造128GB模块。对此,三星表示,这使得降低成本、提高生产率成为可能,同时功耗也降低了10%。而在HBM4开发上,三星电子正开发针对高温热特性优化的非导电粘合膜(NCF)组装技与混合键合(HCB)等技术。
当然,要实现在有限的封装中承载更多容量,最小化DRAM单芯片尺寸的工艺技术,以及在外形尺寸内正确放置组件并确保按照规格运行的设计技术也至关重要。因此,存储原厂还需一方面研究在不扩大现有物理尺寸的情况下,如何扩展Die堆叠层数和物理堆叠高度,以及增加核心Die密度以优化堆叠密度,另一方面也需致力于提高功耗效率,通过评估从最低微结构级别到最高Die堆叠概念的内存结构和操作方案,最大限度地降低每带宽扩展的绝对功耗,以解决HBM4更大位宽带来的更高能耗问题。
HBM4争夺赛打响
过去一年多来,存储芯片一直处于低位发展状态,即使在各大存储大厂控产量、降库存等措施下,仍无法对冲消费端需求不畅带来的影响,但生成式AI催生的HBM需求,成为各大厂商重点发力的细分领域产品。
值得一提的是,作为适用于AIGC目前所需算力的硬件芯片,GPU对HBM内存需求大增。自今年初以来,GPU一直处于供不应求的状态,不仅出现明显的价格上涨,比如英伟达的H100显卡售价高达40000美元/块,而且出现了交货周期延长的问题。这进一步强化了各大存储大厂在HBM产品方面的研发与布局力度。
近日,有产业链消息称,由于需求快速增长,英伟达原定于2024年四季度发布Blackwell B100,将提前至2024年二季度。SK海力士将向英伟达独家供应第五代高带宽内存(HBM)产品HBM3E,该公司原定于明年二季度进行质量测试,目前也已提前至一季度。
据TrendForce预测分析,目前高端AI服务器GPU搭载HBM已成主流,预估2023年全球HBM需求容量将达2.9亿GB,同比增长近60%。TrendForce测算,2023年HBM市场规模预计为31.6亿美金,到2025年市场规模有望突破100亿美金。从目前各原厂规划来看,TrendForce预估2024年HBM供给位元量将同比增长105%。
而在HBM4上,三星电子、SK海力士、美光科技也展开了新的争夺赛。
今年9月,SK海力士提出了在2026年推出第六代HBM "HBM4 "的蓝图,其将拥有12层或16层D-RAM。SK海力士还透露,将把下一代后处理技术“混合键合”应用于HBM4产品。与现有的“非导电膜”工艺相比,该技术提高了散热效率并减少了布线长度,从而实现了更高的输入/输出密度。
近日,来自三星官方消息,三星电子在面向高性能计算(HPC)的HBM内存也迎来了新进展:一是已经向客户提供9.8Gbps的HBM3E产品样品;二是计划在2025年推出HBM4内存产品。三星电子一位高管甚至表示,在2025年将推出第六代顶级性能高带宽内存——HBM4芯片,以赢得快速增长的人工智能芯片领域迫切激烈战争的主导权。三星芯片负责业务的设备解决方案部门总裁兼负责人Kyung Kye-hyun更是在公司会议上表示,三星将努力控制一半以上的HBM市场。
在HBM芯片上,美光科技也加快了追赶两家韩国存储巨头的步伐。尽管美光科技在HBM4上没有太多的公开信息,但其披露了暂名为HBMnext的下一代HBM内存。这极有可能就是其HBM4技术研发计划。
据TrendForce集邦咨询研究显示,2022年三大原厂HBM市占率分别为SK海力士(SK hynix)50%、三星(Samsung)约40%、美光(Micron)约10%。可以说,在AI这一主需求推动下,未来三星电子、SK海力士和美光三大存储巨头将成为彼此最大的竞争对手,而HBM4也将成为其在高算力赛道上下一个竞争点。