为了解决从客户端系统到高性能服务器的广泛应用所面临的性能和功耗挑战,固态技术协会(JEDEC)于2020年7月正式发布了下一代主流内存标准DDR5 SDRAM的最终规范(JESD79-5),为全球计算机内存技术拉开了新时代的序幕。
JEDEC将DDR5描述为一种“具备革命意义”的内存架构,认为它的出现标志着整个行业即将向DDR5服务器双列直插式内存模块(DIMM)过渡。
DDR5的速度比已经“超级快”的DDR4还要快。与DDR4内存的3.2Gbps最高传输速率相比,全新DDR5内存则高达8.4Gbps。此外,DDR5也改善了DIMM的工作电压,将供电电压从DDR4的1.2V降至1.1V,从而进一步提升了内存的能效表现。两者之间的性能、容量和功耗等指标的具体比较见表1。
表1:DDR5与DDR4 DIMMs对比。
DRAM芯片密度方面,DDR4在单裸片封装(SDP)模式下仅支持最高16Gb的DRAM容量,而DDR5内存标准将这一数字提高到了64Gb。这意味着,DDR5 DIMM在SDP模式下的最高容量可达256GB,是DDR4 64Gb最大容量的4倍。同时,DDR5还支持片上纠错码、错误透明模式、封装后修复和读写CRC校验等功能,并支持最高40个单元的堆叠,从而可使其有效内存容量达到2TB。
在设计上,DDR5内存保持与DDR4相同的288个引脚数,不过定义不同,故无法兼容DDR4插槽。DDR5 DIMM采用了彼此独立的40位宽双通道设计(32个数据位,8个纠错码位),每个通道的突发长度从8字节(BL8)翻倍到16字节(BL16)。所以尽管数据位仍然是64位,但并发能力的提高使得内存访问效率得到了提升,而且两个通道共用寄存时钟驱动器,每侧可提供四个输出时钟,能够优化信号完整性。
此外,DDR5还带来了一种名为“同一内存块刷新(SAME-BANK Refresh)”的新特性。这一命令允许对每一组内存块中的单独内存块进行刷新,而让其他内存块保持打开状态,以继续正常操作。测试数据显示,单列DDR5模组与DDR4双列模组以3200MT/s的速度进行比较时,前者性能可以提升1.28倍,在4800MT/s的入门级数据速率下,DDR5性能提升了高达1.87倍!
市场调研机构Omdia分析指出,对DDR5的市场需求从2020年就开始逐步显现,到2022年,DDR5预计将占据整个DRAM市场份额的10%,2024年则将进一步扩大至43%;Yole Developpement则预测称,DDR5的广泛采用应该会从2022年的服务器市场开始,2023年,手机、笔记本电脑和PC等主流市场也将开始广泛采用DDR5,出货量明显将会超过DDR4,届时两种技术间将完成快速过渡。
与DDR2、3和4的升级迭代重点主要集中在如何降低功耗上,移动和终端应用在于其主要推动力不同,DDR5的主要推动因素是因为随着CPU核心数量和计算性能的持续增加,内存带宽和容量也必须成比例地扩展。
例如,2000~2019年,内存带宽从约1GB/s迅速提升至200GB/s,但与此同时,一个系统中处理器内核数量也从早期的单核、双核,增加到如今的60个以上。在这样一个超多内核处理器的系统中,分摊到每个内核上的可用带宽是严重不足的。
推动DDR5前进的其他因素,还包括:处理器和内存希望拥有相同的内存读取粒度(64字节高速缓存行);相同或更好的可靠性、可用性和可服务性功能,例如必须支持单错误校正和双错误检测(single error correction/double error detection);保持在冷却功率范围内(~15W/DIMM),并控制好启动和内存训练的时间,以免影响预期启动时间。
数据中心、PC与平板电脑和边缘计算,被视作DDR5最有希望得到广泛普及的三大领域。优先级方面,业界普遍认为DDR5将紧随DDR4的步伐,率先导入数据中心而不是PC领域,以应对计算密集型的工作负载。考虑到PC消费者对整机价格敏感度极高,且DDR5初期推出的价格与DDR4相比存在较高溢价,所以普及速度会相对较慢。
从目前的实际情况来看,DDR4仍然保持着强劲的势头,DDR5还处于早期的量产爬坡阶段,预计到2023年底DDR5的出货量才会超过DDR4。在PC市场,英特尔Alder Lake处理器已经搭配了DDR5内存,AMD也宣布会在今年秋天支持DDR5;在服务器市场,第一个DDR5服务器已经出样,预计会在接下来的3-6个月内实现早期量产。这样看来,此前盛传的“2022年将能够真正全面进入DDR5时代”的说法看来有些过于激进——毕竟2022年底已近,而支持DDR5的处理器平台仍比较有限。
DRAM市场的几大参与者包括了三星、美光、SK海力士(SK Hynix)、南亚科技(Nanya)、力积电(PSMC)等,下图展示了该领域主要市场参与者的技术演进方向。简单而言,三星、美光与SK海力士面向DDR4、DDR5和LPDDR5应用,已经以15nm和14nm级别的单元设计规则发布了D1z和D1α节点的产品;三星是最早在DRAM上采用EUV极紫外光刻技术的供应商,将其应用于D1x DDR4 DRAM模组和D1z LPDDR5规模量产。
图1:主流供应商的DRAM工艺节点演进。来源:TechInsights
HBM3
随着AI和机器学习(ML)领域需求的快速发展,内存产品设计的复杂性正在快速上升,并对带宽提出了更高的要求,高带宽内存(HBM)成为绕过DRAM传统IO增强模式演进的另一个优秀方案。
从最开始数据传输速率约为1Gbps左右的HBM1,到2016年推出的最高数据传输速率为2Gbps的HBM2,再到2018年推出的最高数据传输速率3.6Gbps的HBM2E。
而在三星发布的最新路线图中,其HBM3技术已于今年开始量产,接口传输速率可达6.4Gbps,相比上一代提升1.8倍,从而实现单芯片接口带宽819GB/s,如果使用6层堆叠可以实现4.8TB/s的总带宽。到2024年,预计将实现接口速度高达7.2Gbps的HBM3P,从而将数据传输率相比这一代进一步提升10%,从而将堆叠的总带宽提升到5TB/s以上。
除了AI/ML训练市场之外,HBM3还可用于5G、高性能计算、以及其他与数据中心相关的应用场景、图形应用程序和网络应用。其发展很大程度上是由不断上升的带宽需求驱动的,而对带宽的需求几乎没有上限。换句话说,目前来看HBM的发展可能不会遇到障碍。但对比GDDR DRAM动辄16/18Gbps的速率,HBM3的速率仍然存在差距,而限制HBM发展的原因则主要来自两方面:一是中介层,二是成本。
先进的2.5D/3D制造是造成成本偏高的原因。众所周知,HBM技术与其他技术最大的不同,就是采用了3D堆叠技术。对比HBM2E、DDR、GDDR,HBM3架构的基本单元同样是基于DRAM,但不同于其他产品将DDR进行平铺的做法,HBM选择了3D堆叠,其直接结果就是接口变得更宽。比如DDR的接口位宽只有64位,而HBM通过DRAM堆叠的方式可以将位宽提升到1024位,这就是HBM与其他竞争技术相比最大的差异。但这对成本比较敏感的客户或应用场景来说,使用HBM的门槛就被大幅提升了。
系统级创新将成为更大内存系统的关键
为了解决存储容量的需求,除了芯片级解决方案之外,系统级解决方案也是重要方向之一,使用CXL技术做内存扩展就极具代表性。以数据中心为例,下图从左至右为我们依次展示了数据中心正在以及将要经历的三次重要转型。
图2:数据中心架构不断演进。
首先,大约在2021年底,服务器内存将会开始向DDR5转型。与前代产品DDR4相比,DDR5整体架构较为一致,但在容量、能效等方面实现了大幅提升,具备现代化数据中心所必需的特性。
其次,预计到2022年,数据中心将会通过串形链路实现内存子系统的扩展,也就是前文所述的CXL。通过CXL,就可以在传统插拔式内存条的基础之上,为服务器及数据中心增加全新的内存扩展方式。相比传统插拔内存条的方式,CXL可以进一步提高现有数据中心内存的容量和带宽,也被称作“容量与带宽的双扩展”。
最后,数据中心分解化。CXL的使用将让业界更多关注资源池化和资源本身的功能效应,更高效率地分配资源。通过分解化的全新数据中心架构,计算、内存、存储等资源将进一步池化,从而能够按照工作负载的具体需求,将资源定向分配。使用完成之后,这些资源又将回归到统一的资源池中,等待后续的工作负载进行重新分配。
资源“池化”可以将资源的利用率大幅度提高,这会给超大规模计算、特别是云服务带来巨大的优势,帮助大幅度降低总体拥有成本(TCO)。
因此,2019年3月,英特尔宣布联合微软、阿里、思科、戴尔EMC、Facebook、谷歌、惠普企业HPE和华为等公司,共同推出了一个全新的互联标准,取名为Compute Express Link(CXL),应用目标锁定互联网数据中心、通信基础设施、云计算与云服务等领域。
如前文所述,作为一种开放的行业标准,CXL可在数据中心内的专用计算、内存、I/O和存储元素之间提供高带宽、低延迟的连接,以允许为给定的工作负载提供每个元素的最佳组合。
内存更加智能化
在传统计算设备广泛采用的冯·诺依曼架构中,计算和存储功能不但是分离的,而且更侧重于计算。数据在处理器和存储器之间不停的来回传输,消耗了约80%的时间和功耗,也就是我们所熟知的“存储墙”和“功耗墙”问题。
学术界为此想出了很多方法试图改变这种状况,比如通过对DRAM的逻辑层和存储层进行堆叠,实现近数据存储计算(Near Memory Compute),或者是最好能够将存储和计算有机地结合在一起(存储器颗粒本身的算法嵌入),直接利用存储单元进行计算,最大程度的消除数据迁移所带来的功耗开销。
在这一背景下,更聚焦存储的新型“存内计算”架构诞生了。从目前趋势来看,真正对“存内计算”架构起到决定性推动作用的,将是人工智能/物联网相关应用的加速落地。
美光方面针对内存与计算架构的发展,曾提出过“三个阶段”的看法:第一个阶段是让内存非常靠近逻辑计算,用大量的高带宽数据总线把内存和计算处理器更紧密连在一起;第二个阶段是在内存中进行计算处理。这个概念始于1994年,尽管实现量产在技术上存在不小的难度,软件和逻辑也是分开的两部分,但这样没有传输、延迟等问题,并且大幅提升效能;第三个阶段则是神经形态(neuromorphic)计算,使用内存架构本身做计算。
仍以三星为例,其当前主要的存内计算技术称为HBM-PIM,其中PIM即存内计算(process in memory)的缩写,具体原理是在HBM内存中直接集成计算单元;另一种技术方案是在DRAM旁边直接集成加速器逻辑以降低访问内存的开销,这样的技术三星称为AXDIMM(accelerator DIMM),在三星公布的路线图上预计2024~2025年完成开发。
总体而言,无论基于哪种存储技术,在面对存内计算时,其实都存在一定的挑战。但随着机器学习等应用对于内存访问提出进一步需求,以智能化DRAM为代表的技术方向将成为改变内存市场格局和竞争力的重要手段,有望获得更多系统厂商的青睐。
本文为《电子工程专辑》2022年11月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅