人工智能 (AI) 和机器学习 (ML) 应用程序在数据中心消耗大量电力并产生大量热量。高性能 AI 加速器(如图形处理单元 (GPU)、张量处理单元 (TPU) 和专用集成电路 (ASIC))越来越需要更高效的冷却方法,以保持安全和最佳的热运行水平。
本文讨论了 AI 和 ML 不断增长的能源需求,并探讨了液体冷却在这些高性能工作负载中的兴起。它还回顾了液体冷却连接器的关键设计要求,并重点介绍了开放计算项目 (OCP) 制定的不断发展的行业标准。
AI 和 ML 日益增长的能源需求
AI 驱动型应用程序占美国数据中心所有能源消耗的 10% 到 20%( 图 1),比许多传统工作负载的功耗要高得多 。例如,ChatGPT 查询消耗的能量是标准 Google 搜索的十倍 。由于 AI 模型训练的计算能力需求每 9 个月翻一番,数据中心消耗的能源可能很快就会相当于整个国家/地区的能源消耗。
图 1.深入了解展示广泛服务器基础架构的数据中心。( 图片:DataCenterKnowledge)
随着热设计功率 (TDP) 要求达到 1500W,平均机架功率从 8.5 kW 增加到 12 kW,有效的冷却系统对于保持 70 至 75°F(21°C 至 24°C)的最佳数据中心温度至关重要。在某些地区,冷却基础设施现在约占总能耗的 40%, 这促使 The Green Grid 等组织开发了液体冷却总拥有成本计算工具 (tggTCO)。
适用于 AI 和 ML 工作负载的液体冷却的兴起
许多液体冷却系统通过放置在 GPU 等组件附近或直接上的管道或通道来循环介电流体或水基溶液。此过程可有效消散运行各种高性能 AI 和 ML 应用程序、大型学习模型 ()LLMs 和训练集的数据中心中的热量积聚。与传统的空气冷却、基于风扇的系统或被动散热器相比,这些混合物具有卓越的导热性和更大的传热能力。
图 2.数据中心浸入式冷却系统,带有机架安装式服务导轨,便于维护和热插拔。( 图片:GreenRevolutionCooling)
数据中心通常使用两种主要方法实施液体冷却:冷板冷却和浸入式冷却 ( 图 2)。冷板冷却使介电冷却剂在最热的元件上方或附近循环,在芯片级别提供高性能,但仍依靠补充空气冷却来消散余热。随着机架密度的增加,冷板液体冷却比独立的空气冷却系统更有效地扩展,后者通常难以从密集包装的设备中散热。
浸入式冷却显著减少了辅助风扇的使用,通过消散、重新吸收和再利用近 100% 的产生的热量,进一步提高了能源效率。然而,这种冷却方法通常需要新的设施设计、结构修改以及升级或新的配电系统。
液体冷却连接器的关键性能要求
在设计液冷 AI 系统时,数据中心架构师会选择满足关键性能要求的连接器,例如耐高温高达 50°C (122°F)、处理高达 13 升/分钟 (LPM) 的冷却剂流速以及将压降保持在 0.25 psi 左右。
图 3.浸没在液体冷却解决方案中的数据中心基础设施。( 图片:AKCP)
此外,这些连接器确保易于维护,并与水基或介电流体( 图 3)混合物兼容,防止腐蚀和泄漏。液体冷却连接器还与机架内歧管和现有冷却基础设施无缝集成。
其他关键的液体冷却连接器功能包括:
快速断开连接:有助于轻松、无滴漏地连接和断开连接,以便于 AI 和 ML 数据中心进行日常维护和紧急访问。
大直径:适应高流速,通常内径为 5/8 英寸,用于 AI 机架中的服务器冷却。
热阻: 通过降低热阻来优化传热,这对冷却效率至关重要。
歧管兼容性:将流体连接器与 3 英寸见方的不锈钢管对齐,以优化冷却液分布。
混合设计:为 AI 系统结合了高速数据传输和液体冷却通道。
坚固的设计: 确保耐用性并防止在具有挑战性的条件下发生泄漏,例如温度波动、突然的压降和强烈振动。
许多公司都为数据中心的高性能 AI 工作负载提供液体冷却连接器。这些制造商提供各种快速插拔接头、接头和其他旨在管理热效率的元件。
不断发展的液体冷却连接器行业标准
开放计算项目 (OCP) 等行业组织正在为数据中心的液体冷却连接器制定开放标准。不断发展的 OCP 大型快速连接器规范概述了一种通用快速连接,具有标准化的接口尺寸和性能要求。
这些要求包括 60°C 时 35 psi 的工作压力、175 psi (12 bar) 的最大工作压力、超过 100 升/分钟 (LPM) 的流速,以及将插拔扭矩限制在 5 Nm 以下的人体工程学设计。连接器还必须处理 -4°F 至 140°F(-20°C 至 60°C)的温度, 运输范围为 -40°F 至 158°F(-40°C 至 70°C)。其他标准规定,每次断开的液体损失低于 0.15 mL,并且连续使用的使用寿命至少为 10 年。
总结
高性能 AI 加速器越来越需要高效冷却,以保持数据中心安全、最佳的散热水平。与传统的空气冷却、风扇系统或被动散热器相比,液体冷却系统在 GPU 和 TPU 附近或直接在 GPU 和 TPU 上循环介电液或水基溶液,可提供卓越的导热性和容量。液体冷却连接器专为苛刻环境而设计,必须能够承受高达 50°C (122°F) 的温度,处理高达 13 LPM 的流速,并将压降保持在 0.25 psi 左右。
END
往期精选
中国汽车工业协会车用电路系统分会 第一届第五次理事会议在沪召开
泰国财政部长:美国汽车关税将影响泰国汽车零部件出口
线束行业中的导线:关键特性、选择标准与发展趋势
国外召回|福特因传动轴断开导致溜车召回4247辆汽车