水底下的云

原创 脑极体 2024-08-13 18:57


曾几何时,UDC水下数据中心,就像《流浪地球2》泡在水里的根服务器,是一个只存在于科幻电影、猎奇新闻中,或者是海外顶尖科研机构用来“炫技”的“黑科技”。


如今,UDC已经来到了我们身边,并且正在加速。


今年7月我去2024世界人工智能大会,在一家中国计算厂商的展台“C位”,看到了一台泡在水中、正在运行的电脑。


原来,该企业研发的特殊液体,能够与电路板兼容,而且不会腐化电路。依托相关材料打造的液冷服务器,可以抵御电子元器件的天敌——“水”,让水下数据中心成为可能。


据现场工作人员透露,目前该企业已经与苏州达成合作,正在湖中部署水下数据中心。一是可以作为当地“新质生产力”的标杆项目,展现在智能计算方面的区域实力;二是有特别好的节能减排降耗效果,可以为当地一些AI企业和应用提供绿色算力。



那怎么才能用到水底的算力呢?答案是,云。


从云上获取AI算力,凭借天然的成本优势、灵活租用的弹性优势,成为AI 初创企业的首选。建设更节能、更绿色、成本更低的“云”, UDC水下数据中心也走进了云计算厂商的视野。


2014年微软首次提出了水下数据中心概念,希望为沿海人口提供高速云服务。2018 年微软正式将 855 台服务器沉到海里,与Azure 云进行对比。我国目前也有海底数据中心,核心业务就是算力服务,以及跟腾讯、阿里等云厂家的大批量直接合作,为它们提供更具成本优势的云端算力。


本文就来聊一聊,水底下的云,到底怎么把算力价格“打下来”?



“AI的尽头是电力”。大模型的参数量达到万亿级别,驱动着智算中心的组网规模向五万卡,甚至是十万卡级演进。而一个十万卡集群,可能耗尽一个城市的电量。为了供养AI大模型,全城人都不能开空调、看电视,这未免也太赛博朋克了。


不仅我们不愿意出现这种情况,其实云厂商也不愿意。有调研显示,水电费支出占到了数据中心运营成本的50%以上,而智算中心GPU的密度进一步增加,电量负荷会倍数增长,直接导致云厂商的成本激增。


为了减少电费,云厂商们可谓是想尽了办法。


有人把数据中心放到了乌兰察布、青海,有人放到了湖边(阿里巴巴千岛湖数据中心),有人放进了山洞(腾讯、华为),有人直接搬去了北极圈(Facebook Node Pole 数据中心、芬兰哈米纳港Google数据中心),还有人放到了海上(Google海上漂浮数据中心)、海底(微软Project Natick数据中心)。


万变不离其宗,就是减少依靠空调等电力设备降温的风冷,多靠自然环境中的空气或水,进行自然冷却。



而这些自然冷却方案中,水底下的云无疑是最有“减电”竞争力的。


显然,相比陆地数据中心,水下环境的复杂度更高,布线、维护更为麻烦,而且服务器本来就怕水,对水下数据中心的防水、防腐性能挑战更大,为什么还能成为一种选择?


水下数据中心的成本“第一刀”,就把自然冷却效果打到了“地板价”。


作为冷却效果最极致的解决方案,水下数据中心直接利用了水体的低温特性,比其他物质(如空气冷却、风力冷却)吸收更多热量,大幅减少了额外的冷却需求。


同时,由于水下环境本身就提供了有效的冷却,因此可以减少对空调系统的依赖和能耗。


可以说,利用水流带走热量,水下数据中心节能降耗的成本优势最为显著。



在陆地上建数据中心,自然要占用土地空间,除了土地成本之外,一些天然气温较低的寒冷内陆城市和地区,基础设施条件一般也没有沿海地区发达,比如北极圈,导致TCO总体拥有成本上升。


尤其是随着超万卡集群的到来,对陆地上的数据中心/智算中心配套设施,比如供电、承重、机房洁净度和走线架设计等提出了极高要求。


《面向超万卡集群的新型智算技术白皮书(2024年)》显示,由于超万卡集群的算力密度更高、功耗密度更高,线缆的布放量也随之增大,一个 1.8 万卡的智算集群,需要布放 10 万量级的线缆,这将对走线架的宽度和承重带来新的挑战。


可以说,陆地数据中心/智算中心的总体成本正在走高。


与之相比,水底数据中心的建设成本正在下降,二者之间的“剪刀差”越来越小。



一方面,由于湖泊、海洋的空间较大,建设方的选址范围更广,相比内陆地区,水下数据中心的土地成本更可控。


此外,水下数据中心往往采用高度集成、紧耦合、密封式数据舱,一些在陆地数据中心中是必需的设备,如冷却塔和压缩机等,在水下都不需要。设计得当的海底数据仓,故障率和运维成本更低。


2020年9月,微软将沉入海底两年的数据中心捞上来,评估发现,水下数据中心的服务器故障率,比传统数据中心更低,可靠性比陆地上的服务器高8倍。


这可能是因为,水下数据舱可以与多变的环境隔离,很少受到事故扰动。总之,广袤辽阔的水域,让无需与人类争夺土地资源的水下算力,价格“更香”了。



把服务器泡在水里,省水。这究竟是怎么一回事?


这就要提到一个指标:WUE(Water Usage Effectiveness),水资源利用效率。


很多人听说过PUE,却很少听过WUE,而想要推动环境可持续发展,实现碳中和,WUE也不得不降。


降低WUE,核心就是减少分子——输入数据中心的水量,主要由冷冻补水、冷却补水、加湿补水等生产用水组成。冷却过程中消耗的水资源越少,WUE就越高。


把数据中心泡在水里,就能减少生产用水吗?可以,而且甚至是0。


一方面,水下数据中心直接使用周围水体的低温来冷却服务器,无需蒸发散热,省去了传统数据中心中的冷却塔和冷水系统,用于冷却的水资源消耗等于0。


此外,水下数据中心冷却过程中蒸发的水分直接回到水体中,对于公共水源来说也几乎没有损失。一些干旱缺水的地区,如果利用湖泊、河流、地下水来降温,蒸发的水资源却未必能快速回到当地的水系之中,会给当地水环境带来负面影响。



2023年,美国亚利桑那州就因为担心水资源消耗问题,限制当地数据中心建设。国内,内蒙古乌兰察布市集宁区也出台了《关于禁止集宁区大数据企业使用地下水冷却降温的通知》,辖区内大数据企业一律禁止用地下水冷却降温。


而水下数据中心即使产生一些热蒸腾,也会很快被广阔的湖泊海洋而代谢掉,不会影响到当地的水循环。



水下数据中心虽然成本优势大,但AI云服务如果一味降本,可能会出现“降本增笑”的事故。


举个例子,西部数据中心的存算成本比东部更低,但一些东部企业考虑到传输时延、丢包率、业务可靠性等,宁肯多承担50%的成本,也要把数据放在东部,尤其是自动驾驶等对数据实时性要求较高的业务。这也是很多西部数据中心,上架率不高的重要原因。


水下数据中心的商业化困境在于,虽然价格低,但与AI需求没有充分适配,而AI又被云厂商看作是当下最关键的新增收入点。



水下的资源扩展性受限。云服务需要根据用户需求快速扩展资源,增加算力规模、存储空间,而水下数据舱的出厂、下水都有一定的时间周期(微软官网显示,Natick从工厂到运行要90天),而目前陆地上的智算中心,采用模块化建设只需一个月左右就能落成,能更快满足AI算力需求。


目前,微软也宣布暂停了Natick项目,据说要在后期加强安装、维修机器人等方面的研究,看来远离人类活动的水下环境,仍不适合大规模部署数据中心。


另外,对水下算力的纳管和管理,也给云厂商提出了挑战。目前水下算力的占比还比较小,云厂商要整合和管理这些异构资源,确保不同来源的算力可以无缝集成,实现最佳性能,并让用户便捷简单地使用这些资源,需要投入大量的资源进行技术和系统、平台的研发。


一些积累不够深厚的中小型云厂商,可能出现“酱油(管理平台)比鸡(算力)贵”的情况,并不能靠成本优势来提升综合竞争力。



徐志摩曾在《偶然》诗中写道:“我是天空中的一片云,偶尔投影在你的波心。”目前来看,AI云服务和水下数据中心,恐怕还无法长相厮守、成为彼此的唯一。


2024年5月,Natick项目第二期已经开始,反映出微软对云数据中心解决方案的持续追求,也让“水下数据中心”成为中国不能落后太远的一条赛道,更适合作为科技自立、科技强国的一张名片,与国资云、央国企云、科研云一同试点探索。


而商业化属性更强的云服务商,仍需要聚焦在陆地上。幸好中国地形地貌丰富、基础设施完善,有广阔天地来探索“极致性价比”。


从这个角度说,算力,从来不是一家计算企业或一个行业的事,而是一个举世参与的系统工程。算力即国力的时代,才刚刚开始。


·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 447浏览
  • LVGL(Light and Versatile Graphics Library)是一个免费的开源图形库,旨在为各种微控制器(MCU)和微处理器(MPU)创建美观的用户界面(UI)。LVGL可以在占用很少资源的前提下,实现丝滑的动画效果和平滑滚动的高级图形,具有轻量化、跨平台可用性、易于移植、操作友好以及免费使用等诸多优势。近期,飞凌嵌入式为OK3506J-S开发板移植了最新9.2版本的LVGL,支持多种屏幕构件以及鼠标、键盘、触摸等多种输入方式, 能够带来更加友好的操作界面;同时,启动速度也
    飞凌嵌入式 2025-01-10 10:57 48浏览
  • 随着通信技术的迅速发展,现代通信设备需要更高效、可靠且紧凑的解决方案来应对日益复杂的系统。中国自主研发和制造的国产接口芯片,正逐渐成为通信设备(从5G基站到工业通信模块)中的重要基石。这些芯片凭借卓越性能、成本效益及灵活性,满足了现代通信基础设施的多样化需求。 1. 接口芯片在通信设备中的关键作用接口芯片作为数据交互的桥梁,是通信设备中不可或缺的核心组件。它们在设备内的各种子系统之间实现无缝数据传输,支持高速数据交换、协议转换和信号调节等功能。无论是5G基站中的数据处理,还是物联网网关
    克里雅半导体科技 2025-01-10 16:20 436浏览
  • 随着全球向绿色能源转型的加速,对高效、可靠和环保元件的需求从未如此强烈。在这种背景下,国产固态继电器(SSR)在实现太阳能逆变器、风力涡轮机和储能系统等关键技术方面发挥着关键作用。本文探讨了绿色能源系统背景下中国固态继电器行业的前景,并强调了2025年的前景。 1.对绿色能源解决方案日益增长的需求绿色能源系统依靠先进的电源管理技术来最大限度地提高效率并最大限度地减少损失。固态继电器以其耐用性、快速开关速度和抗机械磨损而闻名,正日益成为传统机电继电器的首选。可再生能源(尤其是太阳能和风能
    克里雅半导体科技 2025-01-10 16:18 319浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 469浏览
  • 电动汽车(EV)正在改变交通运输,为传统内燃机提供更清洁、更高效的替代方案。这种转变的核心是电力电子和能源管理方面的创新,而光耦合器在其中发挥着关键作用。这些不起眼的组件可实现可靠的通信、增强安全性并优化电动汽车系统的性能,使其成为正在进行的革命中不可或缺的一部分。光耦合器,也称为光隔离器,是一种使用光传输电信号的设备。通过隔离高压和低压电路,光耦合器可确保安全性、减少干扰并保持信号完整性。这些特性对于电动汽车至关重要,因为精确控制和安全性至关重要。 光耦合器在电动汽车中的作用1.电池
    腾恩科技-彭工 2025-01-10 16:14 72浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 457浏览
  • Snyk 是一家为开发人员提供安全平台的公司,致力于协助他们构建安全的应用程序,并为安全团队提供应对数字世界挑战的工具。以下为 Snyk 如何通过 CircleCI 实现其“交付”使命的案例分析。一、Snyk 的挑战随着客户对安全工具需求的不断增长,Snyk 的开发团队面临多重挑战:加速交付的需求:Snyk 的核心目标是为开发者提供更快、更可靠的安全解决方案,但他们的现有 CI/CD 工具(TravisCI)运行缓慢,无法满足快速开发和部署的要求。扩展能力不足:随着团队规模和代码库的不断扩大,S
    艾体宝IT 2025-01-10 15:52 162浏览
  • 说到福特,就要从亨利·福特(Henry Ford)这个人物说起。在发明大王爱迪生的电气工厂担任工程师的福特下班后,总是在自家仓库里努力研究和开发汽车。1896年,福特终于成功制造出一辆三轮车,开启了福特汽车的传奇。最初几年,福特都是独自制造汽车并同时进行销售。 (今天很多人都知道的精益管理中的5S方法,或多或少地受到了福特 CANDO方法的影响。)1903年,福特从牧师、律师、银行家、会计师等十一位股东那里筹集了十万美元,并在自家庭院成立了美国第五百零三家汽车公司——福特汽车公司(Fo
    优思学院 2025-01-10 11:21 51浏览
  • 在不断发展的电子元件领域,继电器——作为切换电路的关键设备,正在经历前所未有的技术变革。固态继电器(SSR)和机械继电器之间的争论由来已久。然而,从未来发展的角度来看,固态继电器正逐渐占据上风。本文将从耐用性、速度和能效三个方面,全面剖析固态继电器为何更具优势,并探讨其在行业中的应用与发展趋势。1. 耐用性:经久耐用的设计机械继电器:机械继电器依靠物理触点完成电路切换。然而,随着时间的推移,这些触点因电弧、氧化和材料老化而逐渐磨损,导致其使用寿命有限。因此,它们更适合低频或对切换耐久性要求不高的
    腾恩科技-彭工 2025-01-10 16:15 97浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 167浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 496浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 100浏览
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 465浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 487浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦