CXL的目标主要是为了解决CPU和设备、设备和设备之间的内存鸿沟,解决内存分割造成的较大浪费、不便和性能下降。目前来看,高性能计算、存储加速、AI加速、大规模虚拟化,是最适于CXL应用的领域。

根据IDC Global DataSphere对每年数据产生量的预测,全球数据量的复合年增长率(CAGR)将达到21.2%,并在2022年至2026年期间增加一倍多。而作为全球最大数据生产国之一,中国的数据规模将有望从2022年的23.88ZB增长至2027年的76.6ZB,复合年增长率达到26.3%。显然,包括中国在内,全球对更高性能数据中心的需求十分迫切。

庞大的数据量毫无疑问需要与之匹配的“算力”和“存力”,但与此同时,人们却往往忽视了“运力”,也就是更高系统带宽、更快传输速度的重要性。尤其是在AI大模型快速发展的当下,“算力”和“运力”之间的差距越来越大——以Transformer类模型为例,其参数数量的增长以指数级别呈现,每两年大约增加410倍,而GPU内存仅以每两年2倍的速度扩展,且利用效率低下。

另一个需要引起重视的趋势,是当前的数据中心正在向异构和云计算架构转变,以人工智能(AI)、机器学习(ML)、实时分析和高性能存内计算(in-memory computing)为代表的多样化、高性能计算工作负载也正在蓬勃兴起。

数据中心向革命性新架构演进

这些变化给数据中心内存出了三道难题:第一,是服务器中的计算节点越来越以内存为中心。直连式内存和固态存储在延迟和成本方面存在巨大差距,这对服务器内存的层次结构提出了挑战。当处理器耗尽直连式内存空间时,它就会转到固态存储,这意味着它必须等待,而这种等待或延迟会极大地影响计算性能。

第二,是主内存带宽的扩展速度与CPU核心数量的增加速度不匹配。在超过一定的核心数量后,所有CPU都会出现带宽不足的情况,从而无法充分发挥增加核心数量所带来的优势。第三,是内存资源的利用率不足,因为这些快速的加速计算架构中每个加速器都有自己的专用内存。

因此,如果没有更加高效的数据传输与处理体系架构,如果没有找到实现内存共享、提高内存利用效率,可以有效化解“内存墙”问题的解决方案,庞大的数据和计算资源就很难实现按需组合,也很难根据不同工作负载的需求动态配置内存资源。

让我们先简单回顾一下数据中心过去、现在以及将要经历的三次重要转型过程:

首先,在2021年底,服务器内存开始向DDR5转型。与前代产品DDR4相比,DDR5整体架构较为一致,但在容量、能效等方面实现了大幅提升,具备现代化数据中心所必需的特性。

其次,到了2022年,数据中心通过串形链路实现了内存子系统的扩展,也就是当下最为火热的CXL(Compute Express Link)标准。通过CXL,我们就可以在传统插拔式内存条的基础之上,为服务器及数据中心增加全新的内存扩展方式。相比传统插拔内存条的方式,CXL可以进一步提高现有数据中心内存的容量和带宽,也被称作“容量与带宽的双扩展”。

最后,数据中心分解化。CXL的使用将让业界更多关注资源池化和资源本身的功能效应,更高效率地分配资源。通过分解化的全新数据中心架构,计算、内存、存储等资源将进一步池化,从而能够按照工作负载的具体需求,将资源定向分配。使用完成之后,这些资源又将回归到统一的资源池中,等待后续的工作负载进行重新分配。

至于为何不直接使用PCIe技术?原因是虽然PCIe跟CXL有着非常良好的协同和合作之处,包括采用统一的电气接口,两者之间的数据传输速率也非常一致。但从数据中心应用的角度来讲,PCIe更加适用于芯片到芯片之间的互联,CXL增加了一些额外的属性,延迟比较低,同时可以保证缓存的一致性,更适用于在分布式计算架构体系之下,来进行内存资源的分配。

CXL是什么?

说了这么多,那CXL到底是什么?

2019年3月,英特尔宣布联合微软、阿里、思科、戴尔EMC、Facebook、谷歌、惠普企业HPE和华为等公司,共同推出了一个全新的互联标准,取名为Compute Express Link(CXL),应用目标锁定互联网数据中心、通信基础设施、云计算与云服务等领域,目前最新的版本是2023年11月发布的CXL 3.1规范。CXL联盟的数据显示,该联盟成员已经超过255家,涵盖了主要的CPU、内存、存储和网络设备制造商。

作为一种开放的行业标准,CXL可在数据中心内的专用计算、内存、I/O和存储元素之间提供高带宽、低延迟的连接,以允许为给定的工作负载提供每个元素的最佳组合。简单而言,CXL的目标主要是为了解决CPU和设备、设备和设备之间的内存鸿沟,解决内存分割造成的较大浪费、不便和性能下降。CXL通过将计算和存储分离,形成内存池,从而能动态按需配置内存资源,提升效率。

在2019年发布的CXL 1.0/1.1规范中,定义了CXL.io、CXL.cache和CXL.memory三种协议,分别处理I/O、缓存一致性和内存访问。

CXL.io:这种模式可以将内存扩展到外部设备,使得数据的传输速度更快。CXL.io通过PCIe总线连接CPU和外部设备,这样CPU就可以与外部设备共享内存,并且可以直接访问外部设备的I/O资源;

CXL.cache:这种模式可以通过将内存缓存到外部设备中来提高性能。CXL.cache模式允许CPU在本地缓存中保留最常用的数据,而将不常用的数据保存在外部设备中。这样可以减少内存访问时间,提高整体系统性能;

CXL.memory:该协议使主机(例如处理器)能够使用加载/存储命令访问设备连接的内存。该模式可以将外部设备作为主内存使用,从而实现更大的内存容量。

这三个协议虽然支持三种不同的CXL设备类型,但都共同促进了计算设备之间内存资源的一致共享。

2020年11月发布的CXL 2.0,重点是实现了机架级别的资源池化。简单而言,就是强调资源可以像水和电一样按需获取,云计算可以追求不同资源之间的松耦合,以提高使用效率,实现相同资源的池化。同时,还增加了CXL switch功能,它可以在一个机架内通过一套CXL交换机构建成一个网络,使多达16个主机可以访问多个内存实体,以进一步支持解耦,实现从服务器级别提升到机架级别的连接。

2022年8月,Intel发布了建立在PCIe 6.0规范之上的CXL 3.0规范,在将速率从32GT提升到64GT的同时,还确保了延迟没有发生任何变化。另一大亮点是“内存共享(Memory sharing)”,这种能力突破了某一个物理内存只能属于某一台服务器的限制,在硬件上实现了多机共同访问同样内存地址的能力,使得CXL的内存一致性得到了进一步的增强。

此外,CXL 3.0还新增了对二层交换机的支持,可以更好地对资源进行解耦和池化,将CPU、内存、网卡、加速器都变成“资源池”,交换机之间也可以构建各种网络拓扑和路由方式。简单而言,就是在CXL 3.0中,连接交换机的多个设备现在可以使用结构端口进行级联和互连,实现“互相对话”,从而创建一个更大的结构,用于互连大量设备,包括加速器、内存和存储。

CXL3.1新版本对横向扩展CXL进行了结构改进、增加了新的可信执行环境功能,并对内存扩展器进行了改进。1) 支持使用全局集成内存(GIM)通过CXL结构进行主机间的通信,这可以大大提高系统性能。2) 通过CXL对内存事务的直接点对点支持来增加 GPU内存的使用效率,这对于处理大规模数据集和AI工作负载非常有帮助。

重构数据中心

与之前通过插拔内存条实现CXL内存扩展的方式不同,CXL内存资源池化之后,主处理器就可以通过CXL链路,在高速和低延迟的模式下实现与内存节点和其他设备间的连接。

例如,无论是传统的计算节点还是系统,都会通过一个物理接口/控制器和CXL链路实现与其他关键设备和节点的连接。在下游,专业人员可以将内存设备连接至服务器主板上的CXL扩充槽,以实现内存扩展,多个主机也可以共享内存而无需考虑一致性问题。

CXL内存池化是一个全分解、可重组的全新模式。主处理器通过CXL内存的池化与具体内存来进行连接,并根据不同的工作负载进行资源的重新分配和调配;资源池化可以同时支持多个主机与最优的多个内存资源相匹配;Switch可以将内存动态地分配到有需要的服务器上,从而可以大大提高内存的使用效率,使得数据中心用较低的内存成本,能够满足实际业务的需求。

这样,在整个物理接口、控制器、IP集成到设备的情况下,用户就可以更好地匹配具体的计算资源,在一个工作负载完成之后,还可以释放资源并应用到下一个工作任务中。这会给超大规模计算提供商,特别是云服务提供商,带来巨大的优势,帮助他们大幅度降低总体拥有成本(TCO)。

未来,CXL预计将逐步被采用,助力数据中心解决目前面临的问题。第一步将是低延迟内存扩展,这对于支持日益增长的计算核心数量十分重要。CPU可通过CXL连接到远离自己的内存,从而使服务器能够获得所需的足够内存,并变得更加灵活。

之后,CXL还将为内存分层和池化提供支持,帮助提高内存利用率并最终实现整个机架级结构的分解,包括内存、计算和I/O等。借助CXL,内存模块、加速器和I/O设备可以连接到机架级结构,实现灵活的资源分配和组合。

争相布局CXL

高性能计算、存储加速、AI加速、大规模虚拟化,被视作是最适于CXL应用的领域。根据Yole的数据,在服务器内存的行业挑战和市场机遇下,预计2028年全球CXL市场规模将达到158亿美元。其中DRAM将占CXL市场收入的大部分,到2028年市场收入将超过125亿美元,占比约为79%。

英特尔:英特尔在新发布的至强6中引入了CXL 2.0功能。具体做法是让CXL和原生DRAM做硬件辅助分层(HW-assisted tiering),在1:1的情况下尽量把CXL常用数据放在DRAM中。在数据库业务的吞吐性能(IOPS)对比测试中,DRAM+CXL内存相较仅用DRAM方案的性能损失较小。

AMD:AMD的EPYC Genoa支持DDR5、PCIe 5.0以及CXL1.1接口,并计划在3~5年内将CXL技术导入消费级CPU。此外,AMD也正在研发支持CXL 3.0的处理器和加速器产品,旨在提升其在高性能计算和数据中心市场的竞争力。

Arm:从第二代Neoverse产品开始就实现了对CXL 2.0的支持。今年年初推出的Neoverse CCS V3核心,拥有6个DDR5内存控制器、4个I/O 控制器和两个芯片间互连,并支持PCIe Gen5和CXL 3.0。

三星:早在2021年5月,三星就推出了基于DDR5技术支持CXL 1.1互联标准的内存模块,两年后又研发出首款支持CXL 2.0的128GB DRAM。基于CXL 3.0的内存模块正在按计划推进,这些内存模块将适用于高性能计算、AI/ML和大数据分析等领域,提供更高效的内存访问和资源管理

SK海力士:2022年,SK海力士开发了DDR6 CXL计算存储器解决方案,成为业界第一个在CXL内存芯片中引入计算功能的解决方案。2023年,SK海力士量产了基于1α节点的DDR5 CXL产品。

美光:2023年8月,美光推出CZ120内存扩展模块,完全支持CXL 2.0 Type 3标准。支持CXL 3.0的内存解决方案正在开发中,主要面向需要大规模内存扩展和高效数据处理的场景。

Rambus:Rambus提供的产品包括专为用于SoC、ASIC和FPGA而优化的高性能CXL 2.0和3.1控制器。为此,从2021年开始,Rambus陆续完成了对AnalogX、PLDA和Hardent等公司的收购,并推出了CXL内存互连计划。

国内企业方面,国数集联、澜起科技是最具代表性的公司。

澜起科技:澜起科技首款CXL内存扩展控制器芯片(MXC),符合CXL 2.0中的Type 3内存扩展器规范,同时支持PCIe 5.0的传输速率,兼容DDR4-3200和DDR5-6400的内存。

国数集联:国数集联基于自主研发的CXL协议 IP,成功研发了业界第一款CXL多级网络交换机(CXL Multi-level Networking Switch, CMNS)参考设计。此次发布的第一代参考设计基于FPGA,提供24个PCIe ASM端口,可以灵活配置上下行接口。每个端口最大双向速率可达448Gb/s,确保高速数据传输。同时,通过两级组网,最多可实现288个主机互联。

此外,将国数集联的CXL多级网络交换机(CMNS)与CXL混合资源池(CHRP)组网,可构建出极具灵活性与高效性的异构系统架构,能够实现高达192张涵盖CPU、GPU、DDR、SSD、FPGA等多元化设备的系统互联方案。

值得一提的是,该方案的延时仅为IB方案的1/2,RoCEv2方案的1/4,在降低成本的同时,提供超低延迟连接,显著增强AI和HPC组网的运行效率与响应速度。

结语

总体而言,内存池化是CXL实现新的数据中心架构,并解决随着需要更多内存而不断上升的成本问题的有效手段。因为“DRAM是数据中心中支出最高的项目之一”,所以“任何能够提高现有硬件效率的东西,都将间接地有助于降低总拥有成本。”

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
谷歌认为,这种独家协议可能会限制市场竞争,导致其他公司无法自由地使用OpenAI的技术,从而增加了用户面临额外成本的风险,比如数据迁移和员工培训等。
据悉,此次交易是通过马斯克亲自与英伟达CEO黄仁勋进行沟通促成的。这批GB200 AI芯片将被用于强化其旗舰级超级计算集群——Colossus(巨人)。Colossus作为xAI的技术基石,将借此机会实现计算能力的飞跃。
短期全球芯片市场数据的上调反映了 2024 年第 2 季度和第 3 季度业绩的改善,尤其是在计算领域,受AI 芯片支持的需求推动。
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
自1984年,意法半导体首次进入中国,成为首批在中国开展业务的半导体公司。意法半导体CEO Jean-Marc Chery日前表示,中国市场是不可或缺的,是电动汽车规模最大、最具创新性的市场,与中国本地的制造工厂达成合作,具有至关重要的作用。他还表示,意法半导体正在采用在中国市场学到的最佳实践和技术,并将其应用于西方市场,“传教士的故事结束了”。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
LG Display  12月18日表示,为加强OLED制造竞争力,自主开发并引进了“AI(人工智能)生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播