在Nvidia GTC 2024上,GPU和AI占据了中心舞台。但另一项有人认为可以帮助解决GPU瓶颈的技术却缺席了:CXL。多年来,CXL一直被吹捧为增加数据中心设备(包括GPU等加速器)内存的一种方式。
然而,在台下,关于CXL在AI中角色的争论更加微妙。一些人认为,鉴于Nvidia缺乏支持,CXL在讨论中的地位有限。其他公司,包括内存软件供应商MemVerge、内存供应商Micron和硬件供应商Supermicro,都证明了这一点。
在GTC上,MemVerge、Micron和Supermicro展示了CXL如何在不增加更多处理单元的情况下提高大型语言模型GPU的利用率。CXL通过扩展GPU内存池来增加高带宽内存使用,而不是使用更多GPU或更多HBM扩展基础设施,从而实现这一点。然而,权衡的是性能。
英伟达则走了一条不同的道路。这家GPU制造商有自己的NVLink,这是一种专门设计用于实现GPU之间高带宽连接的互连。虽然CXL提供了扩展内存占用和池化处理器内存的通用功能,但在一些最受欢迎的GPU中却没有。
AI下的CXL已死?
CXL于2019年首次出现,被视为克服孤立内存和CPU内存限制的潜在方法。从那时起,CXL用例不断增长,可以在多个主机之间实现内存共享,并提供扩展的带宽和设备功能。
在2024年内存结构论坛上,MemVerge强调了CXL是一种能够连接计算、网络和存储的潜在AI结构。与Nvidia一起是CXL联盟成员的MemVerge开发的软件在开发CXL用例中发挥着关键作用。
MemVerge CEO Charles Fan表示,x86时代的传统数据中心布局是通过以太网网络结构将x86 CPU服务器与存储连接起来。但AI时代将看到基于GPU的服务器通过HBM连接到存储,并可能使用NVLink或超以太网作为GPU和内存池之间的互连。
Fan表示:“CXL也可以作为AI的结构发挥作用。”
但独立研究公司SemiAnalysis的两位分析师Patel和Ontiveros认为,CXL不会向AI迈进。在一篇新文章中,他们认为,虽然CXL总体上对服务器有潜在的好处,但这些好处并不能服务于Nvidia GPU,因为Nvidia GP没有多少空间可用于连接,而且Nvidia倾向于自己的NVLink。
根据Patel和Ontiveros的说法,Nvidia GPU的四组I/O中有两组是专门用于HBM的。这就为连接留下了两个优势,英伟达更有可能选择自己的NVLink和NVLink- c2c(与Grace CPU的互连),而不是CXL。这两种协议都是Nvidia专有的,并且比CXL提供更多的带宽。
但Fan表示,争论的焦点只集中在AI工作负载的GPU到GPU连接上,而CXL提供了更广泛的功能。
“GPU到GPU的通信不是CXL标准的最初设计或用例,相反,CXL解决了带宽和容量扩展问题。”
Fan说,Nvidia既支持NVLink连接到其他Nvidia GPU,也支持PCIe连接到其他设备,但PCIe协议可以用于CXL。事实上,GPU的竞争对手AMD生产的芯片几乎完全使用PCIe。就像英伟达的GPU一样,Fan看到了两种互连共存的未来。
不止一个用例
Dragon Slayer Consulting的总裁Marc staimer也认为,专注于GPU到GPU的通信(对于生成式AI很重要)的范围过于有限,并且从来都不是CXL技术的预期目标。
“CXL不仅仅是为了解决GPU问题,”他说。
Staimer说,生成式AI主要有两个方面。首先是训练,这通常需要GPU提供大量带宽,以确保以最大速度并行读取大量数据。第二是推理,经过训练的语言模型可能依赖于检索增强生成,这是一种AI框架,可以使用额外的数据集来提高准确性。
一种RAG技术是矢量数据库,它可以存储高维数据,如图像和文本,可以用来根据需要更新查询,而不需要额外的训练。
“数据库在CPU和内存中运行,你的记忆越多越好。”
Staimer说,CXL可以扩展内存占用,让整个矢量数据库在内存中运行。在内存中运行数据库意味着不需要访问存储来检索数据,从而提高了数据库速度。然而,他指出,生成式AI仍然是数据中心总支出的一小部分,而CXL可以更广泛地用于扩展数据中心内存,从而提供更低的成本和更好的内存利用率。
Patel和Ontiveros还看到了CXL在AI之外的内存扩展和内存池优势的价值,特别是在大规模提高DRAM利用率方面。他们写道,这些功能可以为每家云提供商“节省数十亿美元”。
但Fan认为,考虑到AI的发展速度之快,以及新的用例仍在被发现,将CXL排除在AI工作负载之外还为时过早。这样的一个用例可能是扩展GPU上的HBM池以维持处理器的利用率。
扩大HBM
HBM是堆叠的同步动态随机存取存储器,通常附加到处理器、CPU、特定应用程序集成电路,或者更常见的是GPU。堆叠设计增加了带宽,降低了功耗。然而,HBM的容量有限,而且价格昂贵。人们对HBM的兴趣有所上升,因为AI带宽是关键,HBM提供了尽可能高的带宽。
但是CXL可以扩展GPU的容量,超出HBM的限制。Fan表示,在GTC上,MemVerge、美光和超微展示了克服AI内存墙问题的潜力,即内存传输的容量和带宽有限,特别是GPU上的内存大小。
“模型大小的增长以及GPU计算能力的增长超过了GPU的内存容量。”
一种解决方法是扩展所使用的GPU数量。但这样做既昂贵又依赖于目前需求量很大的处理设备。另一个解决方案是通过CXL卸载或扩展内存,这将更便宜,并且无需更多的GPU或更密集的HBM。
与HBM相比,切换到较慢的CXL内存将影响性能。但MemVerge、Micron和Supermicro的联合技术显示,GPU的利用率也显著提高,从而更快地完成任务。
应该注意的是,在他们的设置中使用的GPU使用GDDR6内存,而不是HBM。无论如何,MemVerge表示,内存扩展的效果是一样的。
原文链接:
高端微信群介绍 | |
创业投资群 | AI、IOT、芯片创始人、投资人、分析师、券商 |
闪存群 | 覆盖5000多位全球华人闪存、存储芯片精英 |
云计算群 | 全闪存、软件定义存储SDS、超融合等公有云和私有云讨论 |
AI芯片群 | 讨论AI芯片和GPU、FPGA、CPU异构计算 |
5G群 | 物联网、5G芯片讨论 |
第三代半导体群 | 氮化镓、碳化硅等化合物半导体讨论 |
存储芯片群 | DRAM、NAND、3D XPoint等各类存储介质和主控讨论 |
汽车电子群 | MCU、电源、传感器等汽车电子讨论 |
光电器件群 | 光通信、激光器、ToF、AR、VCSEL等光电器件讨论 |
渠道群 | 存储和芯片产品报价、行情、渠道、供应链 |
< 长按识别二维码添加好友 >
加入上述群聊
带你走进万物存储、万物智能、
万物互联信息革命新时代