点击蓝字 关注我们
SUBSCRIBE to US
CRAIG FRITZ
电子产品和流体通常不会混合。但来自世界各地的团队正在表明,将数据中心的设备浸泡在专用流体中可能是保持它们冷却的最佳方式。
如果电脑过热,可能会出现故障,所以它们经常使用耗电的风扇来冷却(https://spectrum.ieee.org/fujitsu-liquid-immersion-not-all-hot-air-when-it-comes-to-cooling-data-centers)。最近,工程师们已经部署了通过在处理器附近的管道中循环水来冷却超级计算机的方法。流体比空气密度大得多,这使它们能够更有效地从计算机中吸收热量。这种效率越来越重要——2023年的一项研究发现(https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(23)00444-7),保持数据中心服务器过热所需的能量占数据中心总能耗的30%至40%。
然而,水冷也面临着自身的问题。从计算机中携带热量的水通常通过管道输送到冷却塔。在那里,它的热量将单独供应的水转化为薄雾,蒸发到大气中。2022年,谷歌的数据中心消耗了约190亿升淡水进行冷却(https://e360.yale.edu/features/artificial-intelligence-climate-energy-emissions)。
现在,两个独立的结果将一种不同的技术放在了地图上——沉浸式冷却,或者将整个数据中心浸入油中。这种油是非导电性的和非腐蚀性的,所以它可以与电子设备直接接触,而不会造成短路或损害它们。Sustainable Metal Cloud公司联合首席执行官Oliver Curtis表示,这项技术有可能将能源使用量减半。
Curtis说:“我们已经证明,你可以以较少的能源获得相同的性能,如果你能做到这一点,我们就有责任推广这项技术。”
Dunking an AI Factory
MLPerf人工智能训练比赛公布了一个新的基准——能耗。顾名思义,它测量每个提交机器在执行其他基准测试时所消耗的功率,例如训练大型语言模型或推荐引擎。这一新类别只有一个提交组织,即总部位于新加坡的Sustainable Metal Cloud(SMC)。
SMC希望展示其基于浸没的冷却系统带来的效率提升。该系统的流体是一种称为聚α烯烃的油,它是一种常用的汽车润滑剂。油被迫缓慢地通过浸泡过的服务器,从而实现高效的热传递。
SMC团队已经弄清楚了需要对服务器进行哪些修改,以使其长期与这种冷却方法兼容。除了移除内置风扇外,他们还关闭了将芯片连接到散热器的热接口材料,因为其中一些材料在油中会降解。Curtis说,他们所做的修改很小,但对他们的设置功能很重要。
Curtis提到:“我们所做的就是为计算机创造了完美的操作环境。没有灰尘,没有运动,没有振动,因为没有风扇。这是一个完美的工作温度。”
SMC的系统被称为HyperCubes,由12或16个油箱组成,每个油箱都装有一台服务器。服务器通过普通互连在储罐之间相互连接,从一个储罐中的油循环出来,进入相邻的储罐。Curtis声称,这种方法在服务器级别节省了20%到30%的总能耗。
此外,SMC建造了针对每个HyperCube的全厂热交换系统。在传统的数据中心,除了直接连接到服务器的风扇外,还需要中央空调来保持服务器的冷却。Curtis说,系统级热交换器更有效地完成了空调的工作,进一步减少了20%的能源消耗。
SMC将其组合的HyperCube和专用换热器称为“AI工厂”。该公司于2019年在塔斯马尼亚州部署了第一个HyperCube,随后在澳大利亚建造并交付了超过14个。2022年,SMC在新加坡安装了第一家人工智能工厂,通过云服务在亚洲进行商业使用。
因为SMC是唯一一家参与MLPerf新能源类别的公司,所以很难验证其关于能源节省的具体说法。然而,其平台在各种基准测试中的表现与相似的竞争对手相当——也就是那些像SMC一样使用Nvidia H100 GPU的系统。现在,它的能源结果已经成为了一种挑战,等待其他公司来超越。
Researching Oil for the Chill
另外,新墨西哥州的桑迪亚国家实验室(Sandia National Laboratories)正在测试浸没冷却,目的是提供一个独立的、公开的评估。Sandia基础设施计算服务的工程项目负责人Dave Martinez表示,到目前为止,浸没冷却“有很多优点,我很难看到任何会影响我转而使用其他技术的缺点”。
Sandia使用的液体来自巴塞罗那的Submer Technologies。它是一种合成的、可生物降解的、无毒的、不可燃的、无腐蚀性的流体,使用食品级成分制成。Martinez说,这种液体的电导率是空气的八分之一,粘度大致相当于食用油。
在测试中,Sandia将整个计算机——服务器机架及其电源线——放置在装有液体的浸泡罐中。该策略旨在捕获电子设备产生的所有热量,以提供均匀的冷却。在适当的温差下,冷却液将热量释放到室外。
据Submer介绍,其浸没式冷却系统的效率比传统冷却技术高95%。Martinez建议,与标准方法相比,它可以将能源消耗减少70%。此外,他说,冷却剂吸收热量后,可以在冬季为建筑物供暖。
当涉及到更换组件——比如电路板上的芯片时,上方的龙门系统可以取出服务器机架。“我们只是让它滴到没有油为止,”Martinez说,“我们可能需要稍微清理一下,不过不需要太多工作。这只是比正常系统多了一步。但我的假设是,由于冷却效果比风扇系统更好,这些部件的故障率会降低很多。”
Martinez和他的同事与总部位于阿尔伯克基的数据公司Adacen合作,于5月开始测试Submer的流体和设备。
Martinez说:“现在,我们看到的是利大于弊。这不仅节省了能源,而且非常巨大。没有了所有的风扇,几乎也没有噪音。你甚至可能不知道那里有数据中心。”
Sandia的测试包括检查浸没式水箱内外的温度,测量冷却所需的能量,硬件的可靠性,检查某些冷却液流动模式是否比其他冷却液更好地工作,计算基础设施成本,以及找出如何最好地使用风扇或水来去除冷却液释放的热量。Martinez说,实验室还计划对电脑进行超频,看看冷却液在不损坏电子设备的情况下能提供多大的性能提升。
Submer指出,其冷却剂面临潜在挑战(https://submer.com/blog/material-compatibility-in-immersion-cooling/)。例如,PVC电缆中的增塑剂化合物可能会泄漏到冷却液中,从而可能使电缆变得更硬、更脆。然而,该公司指出,外护套由聚氨酯树脂等材料制成的电缆并没有出现这个问题。
Sandia计划在7月完成测试,并在8月给出结果。Martinez说:“Sandia正在探索我们的下一个数据中心会是什么样子,浸入式冷却可能会起到一定作用。现在,作为我们未来的一种可能性,这看起来相当不错。”
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
智能家居正在变得更加智能
健康追踪器揭示的心理健康秘密
人工智能对就业的影响:是革命、进化,还是其他?
什么是通用人工智能?