AI基础设施:从算力之战到能源之争

智能计算芯世界 2024-12-28 08:40
本文来自“AI基础设施篇:AI新视觉,从算力之争到能源之争”,数据中心已经是“烧电大户”,用电量占比达到全美 4%2023 年美国数据中心合计功率约 19GW,按此估算全年耗电量约 166TWh(太瓦时),在全国用电量中占比 4%
重磅合集」本星球合集资源链接,进入链接检索内容,根据提示均可下载:
1、《70+篇半导体行业“研究框架”合集》
2、《55+份智能网卡和DPU合集》
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、《800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》

数据中心烧电 166 TWh,超过纽约市全年耗电量,相当于 1538 万家庭用户全年耗电量。分地区来看,22 年纽约全年耗电量 143.2TWh,德州全年耗电量 475.4TWh,加州 251.9TWh,佛罗里达 248.8TWh,华盛顿 90.9TWh美国数据中心全年耗电量超过纽约市全年耗电量。2022 年每位住宅用户的年平均用电量为 10791kWh,照此估算,166TWh 相当于约 1538万家庭用户一年的耗电量。

AI 对电网的挑战

【挑战一:用电总量大幅提升】

与传统的数据中心相比,AI 数据中心需要消耗大量电量。主要原因是数据量的大幅增长、复杂的算法以及 24/7 即时相应的需求。例如,一个 Google 传统搜索的请求消耗约 0.3Wh,而一个 ChatGPT 请求需要消耗 2.9Wh,为前者的十倍;《焦耳》上发表的一篇论文称,如果谷歌每一次搜索都使用 AIGC,其用电量将上升到每年 290 亿 KWh,这将超过肯尼亚、克罗地亚等许多国家的总用电量;根据纽约客杂志报道,ChatGPT 每天消耗超过 50 KWh

【挑战二:用电摆伏加剧】

现象:AI 数据中心(无论是训练还是推理)电流需求高度瞬变,会在几秒内出现巨大的摆幅。随着神经网络模型任务负载的增加或减少,电流需求会有剧烈波动,每微秒变化甚至可达2000A

原理:1)高峰负载波动:AI 模型的训练和推理对算力需求巨大,但并非持续运行,模型训练启动时会出现高峰负载,而低谷时则维持基础运行,导致用电摆伏;2)资源动态调度:AI任务具有周期性,例如大规模训练需要集中资源,而推理阶段相对分散,这使得功耗曲线更加不稳定;3)实时响应需求:生成式 AI 和大模型应用需要低延迟和高吞吐,驱动基础设施实时扩展,进一步放大功耗波动性。

结果:影响电网稳定性。电网设计并不适应摆伏过大,电网基本针对用电负荷进行设计,希望看到一个比较平稳、有规律的缓慢变化的负载,例如,用电负荷 100GW 的用电设备接入电网后可能会有两条 200GW 的传输线进行供电,两条传输线有一条传输线正常就可以保证运行。而 AI 用电特征会在几秒内出现巨大摆幅,这种剧烈波动可能会影响电网的稳定性。

【挑战三:后续用电需求更大】

AI 数据中心的推理由于用户的大量请求,会比训练更消耗能源。目前,谷歌已在今年上半年宣布将加入新的 AI 功能完善搜索体验,将推出基于 Gemini AI Overviews,该功能已面向部分用户开放试用;微软推出名为 Microsoft Copilot 的个人 AI 助手,并已将 ChatGPT 集成到 Bing 中。而目前谷歌搜索引擎的访问量已经达到每月 820 亿次,Office 商业产品的付费用户数量已超过 4 亿,庞大的用户基数意味着训练好的大模型如果集成到公司产品中,用户请求数将大量增长,AI 即时响应次数激增,导致模型推理耗能超过训练耗能。根据麦肯锡估计,直到 2030 年美国数据中心电力负载可能占所有新增需求的 30%40%

结论:随着 AI 的迅速发展,预计集成大语言模型的 AI 软件将会迅速发展,训练需求和推理需求共振,未来数据中心用电量将大幅提升,AIDC 会成为新一代“电老虎”,数据中心消耗电力的比重会进一步提升。

AIDC 究竟多耗电?

测算角度一(保守):AI 芯片

测算逻辑:测算角度一是从芯片数量角度出发,推演到 2030 年,再用芯片数量*芯片功耗来预测用电总量,未考虑服务器整体功耗会大于单芯片*数量,未考虑将来芯片升级迭代后可能发生的单芯片功耗提升情况,因此我们认为测算角度一属于“保守型”测算,测算数据是几种方法中较小的,2030 AIDC 用电需求为 57GW

在用 GPUTPU 数量:根据 DCD 报道,2023 年英伟达、AMD 和英特尔三家企业数据中心GPU 总出货量预估为 385 万个,2023 年为谷歌生产的 TPU 数量预计为 93 万个。进一步追溯供应链,台积电预测,2024 2029 AI 服务器制造的需求的同比增长率约为 50%。以此计算,2030 GPU 出货量约为 6578 万,TPU 出货量约为 1589 万。而根据英伟达官方说法,大部分 H100A100 的使用寿命平均为 5 年,因此我们假设 2030 年在用芯片数量为 26-30 年芯片出货量的总和,因此 2030 年在用 GPUTPU 数量约为 17136 万和 4139 万。

GPUTPU 功耗:H100 NVL 的最大功率可达到 800W。则 2030 年预计将有 17136 万个 GPU,假设 GPUTPU 能耗占 IT 设备总能耗的 90%,假设美国占比 34%,利用率为 80%PUE 1.3 计算,2030 年美国 AIDC GPU 电力需求约为 54GWGPU 数量*GPU 功耗*美国占比*PUE*利用率÷芯片占比=17136 万个*0.8kW*34%*1.3*80%÷90%=54GW)。

而根据谷歌官方说法,TPU v4 芯片平均功率为 200W,结合上述 2030 年在用 TPU 量约为 4139 万的估计,我们预计 2030 TPU 总功耗约为 3.3GW(其他指标假设与 GPU 相同)。

角度一结论:2030 年美国 AIDC 用电总量为 57GW23-26 年芯片存量仅考虑 23 年之后的芯片出货量进行加总,其他计算方法与上述方法相同,27 年至 30 年与上述计算方法相同,最终加总 GPU TPU 功耗得出美国 AIDC 所需电容量在 24-30 年将分别达到 3、6、10、17、25、38、57GW

测算角度二(乐观):数据中心

测算逻辑:测算角度二是从数据中心建设角度出发,参考第三方预测的全球数据中心建设进度(复合增速 25%),同时由于预测数据截至 2026 年,我们假设 2027 2030 年依旧维持 25%的复合增速,对全球数据中心电力需求进行预测,并假设其中 AIDC 的用电量和占比,因此我们认为,该预测角度得到的数据较为“乐观”,最终预测到 2030 年美国 AIDC 用电需求最高为 91GW

研究公司 SemiAnalysis 利用了 5000 多个数据中心的分析和建设预测,并将这些数据与全球数据以及卫星图像分析相结合,预计未来几年数据中心电力容量增长将加速至 25%的复合年增长率,同时 AIDC 占比将进一步提升,数据中心方面,根据预测数据,全球数据中心关键 IT 电力需求将从 23 年的 49GW 激增到 26 年的 96GW,我们假设 27-30 年继续保持数据中心25%的复合增速(参考 2023 2026 年增速,为 25%),那么到 2930 年全球数据中心关键 IT 电力需求分别增长至 188234GW;参考 Semi Analysis 数据,结合 AI 算力蓬勃发展、下游应用陆续爆发大背景,我们认为未来 AI 在数据中心中占比有望持续加速提升,因此我们假设 23-30 年全球 AIDC 占比分别达到 12%、16%、30%、44%、56%、68%、78%、88%,从而计算出 2930 年全球的 AIDC IT 设备电力需求分别为 65GW91GW

角度二结论:以美国占比为 34%PUE 1.3 计算,到 2030 年美国 AIDC 电力需求将达91GW

总结一:AIDC 占比全美总耗电比例提升

根据 Statista 预测数据,2022 年,美国的电力使用量约为 4085 太瓦时,预计未来几十年美国的电力使用量将继续上升,到 2030 年达到 4315 太瓦时(对应 493GW),到 2050 年将达到 5178 太瓦时。根据我们前面的“测算角度一”,假如 2030 AIDC 总功耗最高为 57GW,那么占全美用电量的比重将提升至 12%57GW/493GW),较 2023 年的 5%大幅提升。

总结二:AIDC 耗电量有望比肩比特币挖矿

比特币矿场用电量进行过假设和预测,在该报告中,据我们预测 2024、2025、2026、2027、2028 年得州比特币矿场负荷分别为 4.7/6.5/8.3/10.1/11.9GW(假设得州比特币矿场年新增负荷为 1.8GW),关于得州比特币矿场负荷在美国的份额,我们假设保持 28.5%不变,因此据我们预测美国比特币矿场年负荷分别为 17/23/29/36/42GW

结论:保守预测下,美国 AIDC 耗电量将在 2030 年赶超比特币挖矿电力需求;乐观预测下,美国 AIDC 电力需求将在 2029 年超过比特币挖矿。

下载链接:
半导体行业系列专题:晶圆代工,特色工艺蓬勃发展,自主可控成果显著
AI的裂变时刻”系列报告合集(2)
AI的裂变时刻”系列报告合集(1)
人工智能行业AI硬件全景洞察报告:下一波AI创新机遇在物理空间(2024)
中国移动:智能体通信网络(ACN)白皮书
豆包出圈:解析字节的AI终端布局
AI基础设施篇:AI新视觉,从算力之争到能源之争
中国计算机和软件:模型即服务(MaaS)
智算产业趋势展望:数据智能时代到来(2024)
《2024年生成式AI大会(实践篇)》
1、豆包MarsCode落地编程助手场景的探索与实战 2、多模态LLM在云音乐推荐场景的落地应用 3、腾讯游戏知几语音合成大模型推理实践 4、多模态大语言模型领域进展分享
《2024年生成式AI大会(RAG生成检索篇)》
1、RAG 2.0引擎的设计挑战和实现 2、GraphRAG进展分享 3、基于大模型的生成式检索 4、增强AI能力的Agent实践RAG与Tool Use的协同效应 5、RAG在办公领域中的探索与实践
伽马数据:人工智能行业研究报告(2024.10)
2024新技术前瞻专题系列合集
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。



智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 66浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 81浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 93浏览
  • 在不久前发布的《技术实战 | OK3588-C开发板上部署DeepSeek-R1大模型的完整指南》一文中,小编为大家介绍了DeepSeek-R1在飞凌嵌入式OK3588-C开发板上的移植部署、效果展示以及性能评测,本篇文章不仅将继续为大家带来关于DeepSeek-R1的干货知识,还会深入探讨多种平台的移植方式,并介绍更为丰富的交互方式,帮助大家更好地应用大语言模型。1、移植过程1.1 使用RKLLM-Toolkit部署至NPURKLLM-Toolkit是瑞芯微为大语言模型(LLM)专门开发的转换
    飞凌嵌入式 2025-03-31 11:22 114浏览
  • 在环保与经济挑战交织的当下,企业如何在提升绩效的同时,也为地球尽一份力?普渡大学理工学院教授 查德·劳克斯(Chad Laux),和来自 Maryville 大学、俄亥俄州立大学及 Trine 大学的三位学者,联合撰写了《精益可持续性:迈向循环经济之路(Lean Sustainability: Creating a Sustainable Future through Lean Thinking)》一书,为这一问题提供了深刻的答案。这本书也荣获了 国际精益六西格玛研究所(IL
    优思学院 2025-03-31 11:15 50浏览
  • 北京贞光科技有限公司作为紫光同芯产品的官方代理商,为客户提供车规安全芯片的硬件、软件SDK销售及专业技术服务,并且可以安排技术人员现场支持客户的选型和定制需求。在全球汽车电子市场竞争日益激烈的背景下,中国芯片厂商正通过与国际领先企业的深度合作,加速融入全球技术生态体系。近日,紫光同芯与德国HighTec达成的战略合作标志着国产高端车规芯片在国际化道路上迈出了关键一步,为中国汽车电子产业的发展注入了新的活力。全栈技术融合:打造国际化开发平台紫光同芯与HighTec共同宣布,HighTec汽车级编译
    贞光科技 2025-03-31 14:44 68浏览
  • 一、温度计不准的原因温度计不准可能由多种原因导致,如温度计本身的质量问题、使用环境的变化、长时间未进行校准等。为了确保温度计的准确性,需要定期进行校准。二、校准前准备工作在进行温度计校准之前,需要做好以下准备工作:1. 选择合适的校准方法和设备,根据温度计的型号和使用需求来确定。2. 确保校准环境稳定,避免外部因素对校准结果产生影响。3. 熟悉温度计的使用说明书和校准流程,以便正确操作。三、温度计校准方法温度计校准方法一般分为以下几步:1. 将温度计放置在
    锦正茂科技 2025-03-31 10:27 43浏览
  • 升职这件事,说到底不是单纯靠“干得多”或者“喊得响”。你可能也看过不少人,能力一般,甚至没你努力,却升得飞快;而你,日复一日地拼命干活,升职这两个字却始终离你有点远。这种“不公平”的感觉,其实在很多职场人心里都曾经出现过。但你有没有想过,问题可能就藏在一些你“没当回事”的小细节里?今天,我们就来聊聊你升职总是比别人慢,可能是因为这三个被你忽略的小细节。第一:你做得多,但说得少你可能是那种“默默付出型”的员工。项目来了接着干,困难来了顶上去,别人不愿意做的事情你都做了。但问题是,这些事情你做了,却
    优思学院 2025-03-31 14:58 71浏览
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 52浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 102浏览
  •        在“软件定义汽车”的时代浪潮下,车载软件的重要性日益凸显,软件在整车成本中的比重逐步攀升,已成为汽车智能化、网联化、电动化发展的核心驱动力。车载软件的质量直接关系到车辆的安全性、可靠性以及用户体验,因此,构建一套科学、严谨、高效的车载软件研发流程,确保软件质量的稳定性和可控性,已成为行业共识和迫切需求。       作为汽车电子系统领域的杰出企业,经纬恒润深刻理解车载软件研发的复杂性和挑战性,致力于为O
    经纬恒润 2025-03-31 16:48 46浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦