AI服务器：CXLvsNVLink！

原创 SSDFans 2025-04-02 08:26 265浏览 0评论 0点赞

汽车照明系统的“智慧大脑”，竟然是它？》 GaN电机驱动设计“避坑”指南

点击蓝字

关注我们

在Nvidia GTC 2024上，GPU和AI占据了中心舞台。但另一项有人认为可以帮助解决GPU瓶颈的技术却缺席了：CXL。多年来，CXL一直被吹捧为增加数据中心设备（包括GPU等加速器）内存的一种方式。

然而，在台下，关于CXL在AI中角色的争论更加微妙。一些人认为，鉴于Nvidia缺乏支持，CXL在讨论中的地位有限。其他公司，包括内存软件供应商MemVerge、内存供应商Micron和硬件供应商Supermicro，都证明了这一点。

在GTC上，MemVerge、Micron和Supermicro展示了CXL如何在不增加更多处理单元的情况下提高大型语言模型GPU的利用率。CXL通过扩展GPU内存池来增加高带宽内存使用，而不是使用更多GPU或更多HBM扩展基础设施，从而实现这一点。然而，权衡的是性能。

英伟达则走了一条不同的道路。这家GPU制造商有自己的NVLink，这是一种专门设计用于实现GPU之间高带宽连接的互连。虽然CXL提供了扩展内存占用和池化处理器内存的通用功能，但在一些最受欢迎的GPU中却没有。

AI下的CXL已死？

CXL于2019年首次出现，被视为克服孤立内存和CPU内存限制的潜在方法。从那时起，CXL用例不断增长，可以在多个主机之间实现内存共享，并提供扩展的带宽和设备功能。

在2024年内存结构论坛上，MemVerge强调了CXL是一种能够连接计算、网络和存储的潜在AI结构。与Nvidia一起是CXL联盟成员的MemVerge开发的软件在开发CXL用例中发挥着关键作用。

MemVerge CEO Charles Fan表示，x86时代的传统数据中心布局是通过以太网网络结构将x86 CPU服务器与存储连接起来。但AI时代将看到基于GPU的服务器通过HBM连接到存储，并可能使用NVLink或超以太网作为GPU和内存池之间的互连。

Fan表示：“CXL也可以作为AI的结构发挥作用。”

但独立研究公司SemiAnalysis的两位分析师Patel和Ontiveros认为，CXL不会向AI迈进。在一篇新文章中，他们认为，虽然CXL总体上对服务器有潜在的好处，但这些好处并不能服务于Nvidia GPU，因为Nvidia GP没有多少空间可用于连接，而且Nvidia倾向于自己的NVLink。

根据Patel和Ontiveros的说法，Nvidia GPU的四组I/O中有两组是专门用于HBM的。这就为连接留下了两个优势，英伟达更有可能选择自己的NVLink和NVLink- c2c（与Grace CPU的互连），而不是CXL。这两种协议都是Nvidia专有的，并且比CXL提供更多的带宽。

但Fan表示，争论的焦点只集中在AI工作负载的GPU到GPU连接上，而CXL提供了更广泛的功能。

“GPU到GPU的通信不是CXL标准的最初设计或用例，相反，CXL解决了带宽和容量扩展问题。”

Fan说，Nvidia既支持NVLink连接到其他Nvidia GPU，也支持PCIe连接到其他设备，但PCIe协议可以用于CXL。事实上，GPU的竞争对手AMD生产的芯片几乎完全使用PCIe。就像英伟达的GPU一样，Fan看到了两种互连共存的未来。

不止一个用例

Dragon Slayer Consulting的总裁Marc staimer也认为，专注于GPU到GPU的通信（对于生成式AI很重要）的范围过于有限，并且从来都不是CXL技术的预期目标。

“CXL不仅仅是为了解决GPU问题，”他说。

Staimer说，生成式AI主要有两个方面。首先是训练，这通常需要GPU提供大量带宽，以确保以最大速度并行读取大量数据。第二是推理，经过训练的语言模型可能依赖于检索增强生成，这是一种AI框架，可以使用额外的数据集来提高准确性。

一种RAG技术是矢量数据库，它可以存储高维数据，如图像和文本，可以用来根据需要更新查询，而不需要额外的训练。

“数据库在CPU和内存中运行，你的记忆越多越好。”

Staimer说，CXL可以扩展内存占用，让整个矢量数据库在内存中运行。在内存中运行数据库意味着不需要访问存储来检索数据，从而提高了数据库速度。然而，他指出，生成式AI仍然是数据中心总支出的一小部分，而CXL可以更广泛地用于扩展数据中心内存，从而提供更低的成本和更好的内存利用率。

Patel和Ontiveros还看到了CXL在AI之外的内存扩展和内存池优势的价值，特别是在大规模提高DRAM利用率方面。他们写道，这些功能可以为每家云提供商“节省数十亿美元”。

但Fan认为，考虑到AI的发展速度之快，以及新的用例仍在被发现，将CXL排除在AI工作负载之外还为时过早。这样的一个用例可能是扩展GPU上的HBM池以维持处理器的利用率。

扩大HBM

HBM是堆叠的同步动态随机存取存储器，通常附加到处理器、CPU、特定应用程序集成电路，或者更常见的是GPU。堆叠设计增加了带宽，降低了功耗。然而，HBM的容量有限，而且价格昂贵。人们对HBM的兴趣有所上升，因为AI带宽是关键，HBM提供了尽可能高的带宽。

但是CXL可以扩展GPU的容量，超出HBM的限制。Fan表示，在GTC上，MemVerge、美光和超微展示了克服AI内存墙问题的潜力，即内存传输的容量和带宽有限，特别是GPU上的内存大小。

“模型大小的增长以及GPU计算能力的增长超过了GPU的内存容量。”

一种解决方法是扩展所使用的GPU数量。但这样做既昂贵又依赖于目前需求量很大的处理设备。另一个解决方案是通过CXL卸载或扩展内存，这将更便宜，并且无需更多的GPU或更密集的HBM。

与HBM相比，切换到较慢的CXL内存将影响性能。但MemVerge、Micron和Supermicro的联合技术显示，GPU的利用率也显著提高，从而更快地完成任务。

应该注意的是，在他们的设置中使用的GPU使用GDDR6内存，而不是HBM。无论如何，MemVerge表示，内存扩展的效果是一样的。

原文链接：

https://www.techtarget.com/searchStorage/news/366575974/What-role-does-CXL-play-in-AI-Depends-on-who-you-ask

高端微信群介绍
创业投资群	AI、IOT、芯片创始人、投资人、分析师、券商
闪存群	覆盖5000多位全球华人闪存、存储芯片精英
云计算群	全闪存、软件定义存储SDS、超融合等公有云和私有云讨论
AI芯片群	讨论AI芯片和GPU、FPGA、CPU异构计算
5G群	物联网、5G芯片讨论
第三代半导体群	氮化镓、碳化硅等化合物半导体讨论
存储芯片群	DRAM、NAND、3D XPoint等各类存储介质和主控讨论
汽车电子群	MCU、电源、传感器等汽车电子讨论
光电器件群	光通信、激光器、ToF、AR、VCSEL等光电器件讨论
渠道群	存储和芯片产品报价、行情、渠道、供应链