数据中心烧电 166 TWh,超过纽约市全年耗电量,相当于 1538 万家庭用户全年耗电量。分地区来看,22 年纽约全年耗电量 143.2TWh,德州全年耗电量 475.4TWh,加州 251.9TWh,佛罗里达 248.8TWh,华盛顿 90.9TWh,美国数据中心全年耗电量超过纽约市全年耗电量。而 2022 年每位住宅用户的年平均用电量为 10791kWh,照此估算,166TWh 相当于约 1538万家庭用户一年的耗电量。
AI 对电网的挑战
【挑战一:用电总量大幅提升】
与传统的数据中心相比,AI 数据中心需要消耗大量电量。主要原因是数据量的大幅增长、复杂的算法以及 24/7 即时相应的需求。例如,一个 Google 传统搜索的请求消耗约 0.3Wh,而一个 ChatGPT 请求需要消耗 2.9Wh,为前者的十倍;《焦耳》上发表的一篇论文称,如果谷歌每一次搜索都使用 AIGC,其用电量将上升到每年 290 亿 KWh,这将超过肯尼亚、克罗地亚等许多国家的总用电量;根据纽约客杂志报道,ChatGPT 每天消耗超过 50 万 KWh。
【挑战二:用电摆伏加剧】
现象:AI 数据中心(无论是训练还是推理)电流需求高度瞬变,会在几秒内出现巨大的摆幅。随着神经网络模型任务负载的增加或减少,电流需求会有剧烈波动,每微秒变化甚至可达2000A。
原理:1)高峰负载波动:AI 模型的训练和推理对算力需求巨大,但并非持续运行,模型训练启动时会出现高峰负载,而低谷时则维持基础运行,导致用电摆伏;2)资源动态调度:AI任务具有周期性,例如大规模训练需要集中资源,而推理阶段相对分散,这使得功耗曲线更加不稳定;3)实时响应需求:生成式 AI 和大模型应用需要低延迟和高吞吐,驱动基础设施实时扩展,进一步放大功耗波动性。
结果:影响电网稳定性。电网设计并不适应摆伏过大,电网基本针对用电负荷进行设计,希望看到一个比较平稳、有规律的缓慢变化的负载,例如,用电负荷 100GW 的用电设备接入电网后可能会有两条 200GW 的传输线进行供电,两条传输线有一条传输线正常就可以保证运行。而 AI 用电特征会在几秒内出现巨大摆幅,这种剧烈波动可能会影响电网的稳定性。
【挑战三:后续用电需求更大】
AI 数据中心的推理由于用户的大量请求,会比训练更消耗能源。目前,谷歌已在今年上半年宣布将加入新的 AI 功能完善搜索体验,将推出基于 Gemini 的 AI Overviews,该功能已面向部分用户开放试用;微软推出名为 Microsoft Copilot 的个人 AI 助手,并已将 ChatGPT 集成到 Bing 中。而目前谷歌搜索引擎的访问量已经达到每月 820 亿次,Office 商业产品的付费用户数量已超过 4 亿,庞大的用户基数意味着训练好的大模型如果集成到公司产品中,用户请求数将大量增长,AI 即时响应次数激增,导致模型推理耗能超过训练耗能。根据麦肯锡估计,直到 2030 年美国数据中心电力负载可能占所有新增需求的 30%至 40%。
结论:随着 AI 的迅速发展,预计集成大语言模型的 AI 软件将会迅速发展,训练需求和推理需求共振,未来数据中心用电量将大幅提升,AIDC 会成为新一代“电老虎”,数据中心消耗电力的比重会进一步提升。
AIDC 究竟多耗电?
测算角度一(保守):AI 芯片
测算逻辑:测算角度一是从芯片数量角度出发,推演到 2030 年,再用芯片数量*芯片功耗来预测用电总量,未考虑服务器整体功耗会大于单芯片*数量,未考虑将来芯片升级迭代后可能发生的单芯片功耗提升情况,因此我们认为测算角度一属于“保守型”测算,测算数据是几种方法中较小的,2030 年 AIDC 用电需求为 57GW。
在用 GPU、TPU 数量:根据 DCD 报道,2023 年英伟达、AMD 和英特尔三家企业数据中心GPU 总出货量预估为 385 万个,2023 年为谷歌生产的 TPU 数量预计为 93 万个。进一步追溯供应链,台积电预测,2024 至 2029 年 AI 服务器制造的需求的同比增长率约为 50%。以此计算,2030 年 GPU 出货量约为 6578 万,TPU 出货量约为 1589 万。而根据英伟达官方说法,大部分 H100、A100 的使用寿命平均为 5 年,因此我们假设 2030 年在用芯片数量为 26-30 年芯片出货量的总和,因此 2030 年在用 GPU、TPU 数量约为 17136 万和 4139 万。
GPU、TPU 功耗:H100 NVL 的最大功率可达到 800W。则 2030 年预计将有 17136 万个 GPU,假设 GPU、TPU 能耗占 IT 设备总能耗的 90%,假设美国占比 34%,利用率为 80%,PUE 为 1.3 计算,2030 年美国 AIDC 中 GPU 电力需求约为 54GW(GPU 数量*GPU 功耗*美国占比*PUE*利用率÷芯片占比=17136 万个*0.8kW*34%*1.3*80%÷90%=54GW)。
而根据谷歌官方说法,TPU v4 芯片平均功率为 200W,结合上述 2030 年在用 TPU 量约为 4139 万的估计,我们预计 2030 年 TPU 总功耗约为 3.3GW(其他指标假设与 GPU 相同)。
角度一结论:2030 年美国 AIDC 用电总量为 57GW。23-26 年芯片存量仅考虑 23 年之后的芯片出货量进行加总,其他计算方法与上述方法相同,27 年至 30 年与上述计算方法相同,最终加总 GPU 与 TPU 功耗得出美国 AIDC 所需电容量在 24-30 年将分别达到 3、6、10、17、25、38、57GW。
测算角度二(乐观):数据中心
测算逻辑:测算角度二是从数据中心建设角度出发,参考第三方预测的全球数据中心建设进度(复合增速 25%),同时由于预测数据截至 2026 年,我们假设 2027 至 2030 年依旧维持 25%的复合增速,对全球数据中心电力需求进行预测,并假设其中 AIDC 的用电量和占比,因此我们认为,该预测角度得到的数据较为“乐观”,最终预测到 2030 年美国 AIDC 用电需求最高为 91GW。
研究公司 SemiAnalysis 利用了 5000 多个数据中心的分析和建设预测,并将这些数据与全球数据以及卫星图像分析相结合,预计未来几年数据中心电力容量增长将加速至 25%的复合年增长率,同时 AIDC 占比将进一步提升,数据中心方面,根据预测数据,全球数据中心关键 IT 电力需求将从 23 年的 49GW 激增到 26 年的 96GW,我们假设 27-30 年继续保持数据中心25%的复合增速(参考 2023 到 2026 年增速,为 25%),那么到 29、30 年全球数据中心关键 IT 电力需求分别增长至 188、234GW;参考 Semi Analysis 数据,结合 AI 算力蓬勃发展、下游应用陆续爆发大背景,我们认为未来 AI 在数据中心中占比有望持续加速提升,因此我们假设 23-30 年全球 AIDC 占比分别达到 12%、16%、30%、44%、56%、68%、78%、88%,从而计算出 29、30 年全球的 AIDC IT 设备电力需求分别为 65GW、91GW。
角度二结论:以美国占比为 34%,PUE 为 1.3 计算,到 2030 年美国 AIDC 电力需求将达到 91GW。
总结一:AIDC 占比全美总耗电比例提升
根据 Statista 预测数据,2022 年,美国的电力使用量约为 4085 太瓦时,预计未来几十年美国的电力使用量将继续上升,到 2030 年达到 4315 太瓦时(对应 493GW),到 2050 年将达到 5178 太瓦时。根据我们前面的“测算角度一”,假如 2030 年 AIDC 总功耗最高为 57GW,那么占全美用电量的比重将提升至 12%(57GW/493GW),较 2023 年的 5%大幅提升。
总结二:AIDC 耗电量有望比肩比特币挖矿
比特币矿场用电量进行过假设和预测,在该报告中,据我们预测 2024、2025、2026、2027、2028 年得州比特币矿场负荷分别为 4.7/6.5/8.3/10.1/11.9GW(假设得州比特币矿场年新增负荷为 1.8GW),关于得州比特币矿场负荷在美国的份额,我们假设保持 28.5%不变,因此据我们预测美国比特币矿场年负荷分别为 17/23/29/36/42GW。
结论:保守预测下,美国 AIDC 耗电量将在 2030 年赶超比特币挖矿电力需求;乐观预测下,美国 AIDC 电力需求将在 2029 年超过比特币挖矿。
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。