AI基础设施：从算力之战到能源之争

智能计算芯世界 2024-12-28 08:40 531浏览 0评论 0点赞

EPC专家实战拆解：电机能效优化技巧 解密半导体全产业链测试密码 | 泰克技术大会

本文来自“AI基础设施篇：AI新视觉，从算力之争到能源之争”，数据中心已经是“烧电大户”，用电量占比达到全美 4%。2023 年美国数据中心合计功率约 19GW，按此估算全年耗电量约 166TWh（太瓦时），在全国用电量中占比 4%。

「重磅合集」本星球合集资源链接，进入链接检索内容，根据提示均可下载：

1、《70+篇半导体行业“研究框架”合集》

2、《55+份智能网卡和DPU合集》

3、《14份半导体“AI的iPhone时刻”系列合集》

4、《21份走进“芯”时代系列深度报告合集》

5、《800+份重磅ChatGPT专业报告》

6、《92份GPU技术及白皮书汇总》

数据中心烧电 166 TWh，超过纽约市全年耗电量，相当于 1538 万家庭用户全年耗电量。分地区来看，22 年纽约全年耗电量 143.2TWh，德州全年耗电量 475.4TWh，加州 251.9TWh，佛罗里达 248.8TWh，华盛顿 90.9TWh，美国数据中心全年耗电量超过纽约市全年耗电量。而 2022 年每位住宅用户的年平均用电量为 10791kWh，照此估算，166TWh 相当于约 1538万家庭用户一年的耗电量。

AI 对电网的挑战

【挑战一：用电总量大幅提升】

与传统的数据中心相比，AI 数据中心需要消耗大量电量。主要原因是数据量的大幅增长、复杂的算法以及 24/7 即时相应的需求。例如，一个 Google 传统搜索的请求消耗约 0.3Wh，而一个 ChatGPT 请求需要消耗 2.9Wh，为前者的十倍；《焦耳》上发表的一篇论文称，如果谷歌每一次搜索都使用 AIGC，其用电量将上升到每年 290 亿 KWh，这将超过肯尼亚、克罗地亚等许多国家的总用电量；根据纽约客杂志报道，ChatGPT 每天消耗超过 50 万 KWh。

【挑战二：用电摆伏加剧】

现象：AI 数据中心（无论是训练还是推理）电流需求高度瞬变，会在几秒内出现巨大的摆幅。随着神经网络模型任务负载的增加或减少，电流需求会有剧烈波动，每微秒变化甚至可达2000A。

原理：1）高峰负载波动：AI 模型的训练和推理对算力需求巨大，但并非持续运行，模型训练启动时会出现高峰负载，而低谷时则维持基础运行，导致用电摆伏；2）资源动态调度：AI任务具有周期性，例如大规模训练需要集中资源，而推理阶段相对分散，这使得功耗曲线更加不稳定；3）实时响应需求：生成式 AI 和大模型应用需要低延迟和高吞吐，驱动基础设施实时扩展，进一步放大功耗波动性。

结果：影响电网稳定性。电网设计并不适应摆伏过大，电网基本针对用电负荷进行设计，希望看到一个比较平稳、有规律的缓慢变化的负载，例如，用电负荷 100GW 的用电设备接入电网后可能会有两条 200GW 的传输线进行供电，两条传输线有一条传输线正常就可以保证运行。而 AI 用电特征会在几秒内出现巨大摆幅，这种剧烈波动可能会影响电网的稳定性。

【挑战三：后续用电需求更大】

AI 数据中心的推理由于用户的大量请求，会比训练更消耗能源。目前，谷歌已在今年上半年宣布将加入新的 AI 功能完善搜索体验，将推出基于 Gemini 的 AI Overviews，该功能已面向部分用户开放试用；微软推出名为 Microsoft Copilot 的个人 AI 助手，并已将 ChatGPT 集成到 Bing 中。而目前谷歌搜索引擎的访问量已经达到每月 820 亿次，Office 商业产品的付费用户数量已超过 4 亿，庞大的用户基数意味着训练好的大模型如果集成到公司产品中，用户请求数将大量增长，AI 即时响应次数激增，导致模型推理耗能超过训练耗能。根据麦肯锡估计，直到 2030 年美国数据中心电力负载可能占所有新增需求的 30%至 40%。

结论：随着 AI 的迅速发展，预计集成大语言模型的 AI 软件将会迅速发展，训练需求和推理需求共振，未来数据中心用电量将大幅提升，AIDC 会成为新一代“电老虎”，数据中心消耗电力的比重会进一步提升。

AIDC 究竟多耗电？

测算角度一（保守）：AI 芯片

测算逻辑：测算角度一是从芯片数量角度出发，推演到 2030 年，再用芯片数量*芯片功耗来预测用电总量，未考虑服务器整体功耗会大于单芯片*数量，未考虑将来芯片升级迭代后可能发生的单芯片功耗提升情况，因此我们认为测算角度一属于“保守型”测算，测算数据是几种方法中较小的，2030 年 AIDC 用电需求为 57GW。

在用 GPU、TPU 数量：根据 DCD 报道，2023 年英伟达、AMD 和英特尔三家企业数据中心GPU 总出货量预估为 385 万个，2023 年为谷歌生产的 TPU 数量预计为 93 万个。进一步追溯供应链，台积电预测，2024 至 2029 年 AI 服务器制造的需求的同比增长率约为 50%。以此计算，2030 年 GPU 出货量约为 6578 万，TPU 出货量约为 1589 万。而根据英伟达官方说法，大部分 H100、A100 的使用寿命平均为 5 年，因此我们假设 2030 年在用芯片数量为 26-30 年芯片出货量的总和，因此 2030 年在用 GPU、TPU 数量约为 17136 万和 4139 万。

GPU、TPU 功耗：H100 NVL 的最大功率可达到 800W。则 2030 年预计将有 17136 万个 GPU，假设 GPU、TPU 能耗占 IT 设备总能耗的 90%，假设美国占比 34%，利用率为 80%，PUE 为 1.3 计算，2030 年美国 AIDC 中 GPU 电力需求约为 54GW（GPU 数量*GPU 功耗*美国占比*PUE*利用率÷芯片占比=17136 万个*0.8kW*34%*1.3*80%÷90%=54GW）。

而根据谷歌官方说法，TPU v4 芯片平均功率为 200W，结合上述 2030 年在用 TPU 量约为 4139 万的估计，我们预计 2030 年 TPU 总功耗约为 3.3GW（其他指标假设与 GPU 相同）。

角度一结论：2030 年美国 AIDC 用电总量为 57GW。23-26 年芯片存量仅考虑 23 年之后的芯片出货量进行加总，其他计算方法与上述方法相同，27 年至 30 年与上述计算方法相同，最终加总 GPU 与 TPU 功耗得出美国 AIDC 所需电容量在 24-30 年将分别达到 3、6、10、17、25、38、57GW。

测算角度二（乐观）：数据中心

测算逻辑：测算角度二是从数据中心建设角度出发，参考第三方预测的全球数据中心建设进度（复合增速 25%），同时由于预测数据截至 2026 年，我们假设 2027 至 2030 年依旧维持 25%的复合增速，对全球数据中心电力需求进行预测，并假设其中 AIDC 的用电量和占比，因此我们认为，该预测角度得到的数据较为“乐观”，最终预测到 2030 年美国 AIDC 用电需求最高为 91GW。

研究公司 SemiAnalysis 利用了 5000 多个数据中心的分析和建设预测，并将这些数据与全球数据以及卫星图像分析相结合，预计未来几年数据中心电力容量增长将加速至 25%的复合年增长率，同时 AIDC 占比将进一步提升，数据中心方面，根据预测数据，全球数据中心关键 IT 电力需求将从 23 年的 49GW 激增到 26 年的 96GW，我们假设 27-30 年继续保持数据中心25%的复合增速（参考 2023 到 2026 年增速，为 25%），那么到 29、30 年全球数据中心关键 IT 电力需求分别增长至 188、234GW；参考 Semi Analysis 数据，结合 AI 算力蓬勃发展、下游应用陆续爆发大背景，我们认为未来 AI 在数据中心中占比有望持续加速提升，因此我们假设 23-30 年全球 AIDC 占比分别达到 12%、16%、30%、44%、56%、68%、78%、88%，从而计算出 29、30 年全球的 AIDC IT 设备电力需求分别为 65GW、91GW。

角度二结论：以美国占比为 34%，PUE 为 1.3 计算，到 2030 年美国 AIDC 电力需求将达到 91GW。

总结一：AIDC 占比全美总耗电比例提升

根据 Statista 预测数据，2022 年，美国的电力使用量约为 4085 太瓦时，预计未来几十年美国的电力使用量将继续上升，到 2030 年达到 4315 太瓦时（对应 493GW），到 2050 年将达到 5178 太瓦时。根据我们前面的“测算角度一”，假如 2030 年 AIDC 总功耗最高为 57GW，那么占全美用电量的比重将提升至 12%（57GW/493GW），较 2023 年的 5%大幅提升。

总结二：AIDC 耗电量有望比肩比特币挖矿

比特币矿场用电量进行过假设和预测，在该报告中，据我们预测 2024、2025、2026、2027、2028 年得州比特币矿场负荷分别为 4.7/6.5/8.3/10.1/11.9GW（假设得州比特币矿场年新增负荷为 1.8GW），关于得州比特币矿场负荷在美国的份额，我们假设保持 28.5%不变，因此据我们预测美国比特币矿场年负荷分别为 17/23/29/36/42GW。

结论：保守预测下，美国 AIDC 耗电量将在 2030 年赶超比特币挖矿电力需求；乐观预测下，美国 AIDC 电力需求将在 2029 年超过比特币挖矿。

下载链接：

半导体行业系列专题：晶圆代工，特色工艺蓬勃发展，自主可控成果显著

AI的裂变时刻”系列报告合集（2）

AI的裂变时刻”系列报告合集（1）

人工智能行业AI硬件全景洞察报告：下一波AI创新机遇在物理空间（2024）

中国移动：智能体通信网络（ACN）白皮书

豆包出圈：解析字节的AI终端布局

AI基础设施篇：AI新视觉，从算力之争到能源之争

中国计算机和软件：模型即服务（MaaS）

智算产业趋势展望：数据智能时代到来（2024）

《2024年生成式AI大会（实践篇）》

1、豆包MarsCode落地编程助手场景的探索与实战 2、多模态LLM在云音乐推荐场景的落地应用 3、腾讯游戏知几语音合成大模型推理实践 4、多模态大语言模型领域进展分享

《2024年生成式AI大会（RAG生成检索篇）》

1、RAG 2.0引擎的设计挑战和实现 2、GraphRAG进展分享 3、基于大模型的生成式检索 4、增强AI能力的Agent实践RAG与Tool Use的协同效应 5、RAG在办公领域中的探索与实践

伽马数据：人工智能行业研究报告（2024.10）

2024新技术前瞻专题系列合集

SSD闪存技术基础知识全解（知识星球版）

服务器基础知识全解（知识星球版）

存储系统基础知识全解（知识星球版）

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1669篇粉丝：207人

关注  私信

AI基础设施：从算力之战到能源之争

最近文章

热门文章

推荐

最新资讯