人工智能和机器学习应用的日益普及,引发了数据以指数级的态势持续增长。预计到2025年,全球每年的数据量将达到175ZB的规模。而作为全球最大数据生产国之一,中国的数据规模将有望从2022年的23.88ZB增长至2027年的76.6ZB,复合年增长率达到26.3%。
显然,包括中国在内,全球对更高性能数据中心的需求十分迫切。一是因为这种对内存带宽和容量无休止的需求给数据中心的内存系统带来了挑战,使其已成为一个关键瓶颈;二是当前的数据中心架构,正在从以服务器为计算单元向分解型架构转变。也就是说,要改变资源的池化方式,将其转化为分离式的解决方案。这样,通过完全分解,计算资源可以按需组合,满足不同工作负载的需求。
利用CXL技术重构数据中心
Rambus产品营销高级经理Zaman Mollah认为数据中心对于更高性能和更低总体拥有成本的追求正在面临三项内存挑战:首先是当前服务器内存层次结构的局限性。直连式DRAM和固态硬盘存储(SSD)之间存在三个数量级的延迟差距,当处理器耗尽直连式内存的容量时,就必须转而使用固态硬盘,这就会导致处理器需要等待。这种等待或延迟会对计算产生极大的负面影响。
其次,多核处理器内核数量的增长速度远远超过主内存通道的增长速度。这意味着一旦处理器内核超过一定数量,就会因为内存带宽不足而空置,从而无法最大化利用额外内核的优势。最后,随着加速计算的不断发展,加速器配备有自己的直连内存,内存资源利用不足或空置的问题日益严重。
Rambus产品营销高级经理Zaman Mollah
于是,为了解决传统内存架构的上述局限性,业界一直在探索新的内存接口技术和系统架构。为了持续提升性能,并满足不断演进的多样化数据中心工作负载需求,人们希望根据需要组合服务器基础架构,并根据工作负载需求进行调整。这使得技术逐渐转向异构计算架构,即利用专用加速器为CPU分担特定工作负载。
而Compute Express Link(CXL)的内存缓存一致性允许CPU和加速器共享内存资源。此外,CXL还能实现部署新的内存层,帮助弥合主内存和固态硬盘存储之间的延迟差距。这些新内存层会增加带宽的容量,提供更高效率,并降低总拥有成本。这就是业界正在坚定地将CXL作为处理器、内存和加速器的高速缓存一致性互连技术的根本原因所在。
CXL进展到了哪里?
CXL联盟于2019年成立,并推出初始的1.0和后续的1.1规范,英特尔的Shapphire Rapids处理器和AMD EPYC Genoa处理器支持该技术。在CXL 1.0/1.1规范中,CXL联盟定义了CXL.io、CXL.cache和CXL.memory三种协议,分别处理I/O、缓存一致性和内存访问。
CXL.io:这种模式可以将内存扩展到外部设备,使得数据的传输速度更快。CXL.io通过PCIe总线连接CPU和外部设备,这样CPU就可以与外部设备共享内存,并且可以直接访问外部设备的I/O资源;
CXL.cache:这种模式可以通过将内存缓存到外部设备中来提高性能。CXL.cache模式允许CPU在本地缓存中保留最常用的数据,而将不常用的数据保存在外部设备中。这样可以减少内存访问时间,提高整体系统性能;
CXL.memory:该协议使主机(例如处理器)能够使用加载/存储命令访问设备连接的内存。该模式可以将外部设备作为主内存使用,从而实现更大的内存容量。
这三个协议虽然支持三种不同的CXL设备类型,但都共同促进了计算设备之间内存资源的一致共享。
此后,该联盟持续升级其路线图,陆续更新了CXL2.0和CXL3.0/3.1规范,融入了内存池化和CXL切换的新功能。CXL2.0于2020年发布,并计划于2024年推出,以便多个CPU(主机)可以按需访问共享内存池,通过限制内存的过度配置提高内存利用效率。
最新的CXL规范是3.1,于2023年11月在Supercomputing 2023(SC23)发布,预计将在2025至2026年之间公开提供设备。CXL 3.1继续增加新功能,包括支持PCIe 6.0(速率为64GT/s),并通过Fabric Switching增加内存池来进一步扩展内存池规模。CXL2.0和3.1均支持与前几代产品的完全向后兼容。
尽管规范更新的很快,但我们也听到了行业中的一些质疑声音,例如有人士就指出,“过去三年中,不少内存和服务器SoC公司都表示支持CXL。但就产品推出而言,CXL在数据中心的扩散和应用程度似乎又较为缓慢。”
对此,Mollah回应称,“与任何新技术一样,CXL的大规模应用也需要时间。”从目前的进展来看,该技术已经得到了由150多家行业参与者组成的大型生态系统的支持,其中包括超大规模云服务商、系统OEM、平台和模块制造商、芯片制造商和IP提供商,这反过来又进一步推动了CXL的潜力。尽管CXL仍处于早期部署阶段,但CXL联盟发布的3.1规范强调了该技术的发展势头,并展示了其开创计算新时代的潜力。
生成式AI加速助推CXL落地
以ChatGPT为代表的生成式AI,和很多大型商业公司开始减少对芯片公司标准器件的使用,转而致力于构建自己的差异化、定制化芯片系统,为CXL带来了相当显著的市场新机遇。
Mollah表示,随着ChatGPT等生成式AI模型的应用不断发展,它对计算资源有着巨大的需求,尤其是在训练和推理过程中。为了继续提高性能,服务器正越来越多地转向异构计算架构,并使用专用加速器为CPU分担特定工作负载,如人工智能训练等。这些加速器可提供这些应用所需的专业计算能力,从而实现更快的处理速度和更精确的结果。CXL在这方面也发挥了关键作用,其内存缓存一致性可实现CPU和加速器之间的内存资源共享。
此外,分布式计算和训练是处理生成式AI模型所需的大量数据和计算的关键。CXL的可扩展性,特别是在内存池和共享方面,有助于解决内存和数据传输难题。随着生成式AI模型变得越来越大、越来越复杂,对可扩展内存解决方案的需求可能会增加。
对构建差异化、定制化芯片系统而言,CXL是一个旨在为各种组件,如CPU、GPU、FPGA以及内存设备,提供高速、低延迟连接的互连标准,可在这些组件之间实现高效的数据共享和通信,因此非常适用于数据中心、高性能计算和人工智能/机器学习等广泛应用。它的灵活性和对不同内存和计算设备的支持,使其成为构建高性能、可扩展和多功能计算系统的重要技术。
“CXL内存互联计划”
2021年,Rambus围绕CXL技术和生态展开了全面布局,其中最令人印象深刻的事件就是在一天内宣布完成对AnalogX和PLDA两家公司的收购,并推出面向数据中心的“CXL内存互联(CXL Memory Interconnect)计划”。
AnalogX是行业领先的高速、低功耗PHY解决方案提供商,收购增强了Rambus 系列PCIe 5.0和32G多协议PHY的SerDes技术,为其迈向PCIe 6.0和CXL 3.0奠定了基础;PLDA同样致力于通过CXL和PCIe技术,为数据中心的处理器、加速器、内存和网络设备之间提供高速互联。基于这两项收购,从物理接口到数字控制器,再到IP产品,Rambus CXL相关产品和技术路线图变得日趋完整。
Rambus方面希望能够凭借上述举措进一步推动数据中心向可分解、重组的架构转型。尤其是考虑到在人工智能应用场景之下,市场对高速GDDR以及HBM的需求非常庞大,Rambus将继续迭代PCIe产品与CXL不同标准的协议。其次,在走向下一代协议支持的过程当中,公司还将继续开发更多SerDes互联产品,以实现基于CXL的互联。
而在上述基础上形成的“CXL内存互联计划”,则意在通过内存扩展和池化解决方案推动数据中心的架构转变,支持分解和可组合的服务器架构。
Mollah透露称,三年来,通过运用企业内部在高速I/O、存储器和安全领域的专业知识,Rambus与领先的处理器、DRAM和系统OEM与云服务提供商密切合作,开发出一些列基于CXL的内存扩展和池化解决方案,例如适用于CXL 3.0和CXL 2.0的CXL 控制器IP解决方案,已经被多家客户应用于加速器和SoC中以实现CXL互联。
此外,Rambus还在SC23展示了使用公司原型CXL内存控制器芯片的CXL平台开发套件,使模块和系统制造商能够为AI基础设施和其他先进系统开发和测试基于CXL的内存扩展和池化解决方案原型,以及展示运行行业标准基准测试软件的生产服务器中的CXL内存分层功能。
Rambus CXL平台开发套件扩展卡
“CXL是十年一遇的技术力量,将革新数据中心的架构。借助CXL内存计划,Rambus正在设计解决方案,引领数据中心性能与效率的新时代。”Mollah强调说。