人工智能电力需求巨大,如何应对?

TechSugar 2024-11-25 08:00

(本文编译自Semiconductor Engineering)


在生成式人工智能(AI)出现之前,人们根本无法预见到为这些AI系统供电需要如此庞大的能量。如今,这些数字逐渐明朗,而如何持续满足这一需求的紧迫性也日益凸显。


据预测,到2026年,人工智能的电力需求将激增550%,从2024年的8TWh猛升至52TWh,而到了2030年,这一数字还将再增长1150%,达到惊人的652TWh。与此同时,美国电网规划人员已将对美国的负荷预测值上调了一倍,从2.6%增加到4.7%,预计到2028年将增加近38千兆瓦的电力负荷,这相当于在短短五年内,将另外两个纽约州大小的电力需求添加到美国电网中。


与此同时,微软和谷歌等科技巨头报告称,它们的电力消耗量已经超过了100多个国家的总用电量。谷歌的最新报告还显示,从2019年至2023年,其温室气体排放量将增加50%,其中部分原因正是其数据中心。


这一系列情况让整个科技行业陷入了深深的忧虑之中。芯片行业在计算耗电量方面表现良好,这确实反映了效率的提升。但在人工智能兴起之前,从未像现在这样大力推动计算能力的提升,因此许多人表示对此感到措手不及。这或许就是为什么现在有如此多的研究在探索传统能源的替代品,甚至包括核电站,这些核电站目前正被规划、建设或重新投入使用。


Arm基础设施业务线产品解决方案副总裁Dermot O'Driscoll表示:“AI模型会持续变大且更加智能,这将带动对更多计算能力的需求,进而增加电力需求,形成一个良性循环。找到降低这些大型数据中心电力消耗的方法,对于推动社会进步和实现AI的潜力至关重要。要知道,现在的数据中心已经消耗了大量的电力,全球每年所需的电力高达460太瓦时(TWh),这相当于整个德国的用电量。”


O'Driscoll进一步强调,为了充分发挥AI的潜力,整个行业需要重新审视计算架构和设计。尽管许多AI领域的超大规模企业正在采用Arm内核来减少功耗,但这仅仅是解决方案的一个方面。AI搜索需要为每个查询提供更精确、更有价值的信息,同时AI模型本身也需要变得更加高效。


新思科技电源分析产品管理的高级总监William Ruby也表示:“AI应用正在引发前所未有的电力需求。国际能源署在2024年的报告中提到,ChatGPT请求所消耗的电量是传统谷歌搜索的10倍。我们也注意到半导体IC领域出现了同样的情况。高性能计算应用的SoC功耗现在已达到数百瓦,有些情况下甚至超过了一千瓦。”


人工智能的横空出世及其随后的快速应用,确实给科技界和电力行业带来了不小的震撼。几年前,大多数人还普遍认为人工智能的发展会如同几十年前那样,步伐缓慢而稳健。


“90年代中后期的互联网,是个颠覆性的变革生活的技术,堪称千年一遇的奇迹。”Rambus杰出发明家Steven Woo表示,“智能手机同样如此。然而,人工智能的发展速度却远远超出了我们的预期,它的潜力与互联网不相上下,甚至在某些领域还可能更为巨大。随着越来越多的人投身于人工智能的实验与探索,用户们也开始尝试执行那些需要更多电力支持、更为复杂的任务,半导体行业因此被推向了提升能效的前沿。在许多方面,这些新型架构确实实现了更高的能效。


但是,与日益先进的人工智能所需计算量的迅猛增长相比,这些进步仍然显得微不足道。这就是一个典型的供不应求的困境。尽管我们一直在努力提升能效,但这还远远不够。现在,我们必须另辟蹊径,寻找更多的电力来源。随着模型的规模不断扩大、精度日益提升,我们的系统也变得越来越复杂。而现在,我们面临的最大挑战之一就是如何为这些复杂的系统提供足够的电力,并确保它们的有效散热。这些都是亟待解决的重大问题。”


人工智能与可持续发展


那么,所有这些电力究竟是从何而来呢?而在编写和训练算法的过程中,工程团队是否应当开始更加重视功耗问题呢?


Ansys的总监Rich Goldman对此给出了他的看法:“可持续性,这个问题在半导体行业内已经被关注了整整20年。人们早已认识到,我们需要低功耗的设计,以及能够帮助我们实现这些设计的软件。如今,这已经不仅仅是一个技术层面的考虑,更上升到了工程伦理和道德的高度。当我们的客户在购买芯片或训练模型时,他们会关心这些产品的功耗吗?我个人的观点是,功耗往往不是他们做出购买决定的关键因素。”


此外,工程师的奖励机制、评估标准和考核方式也在其中发挥着重要作用。Goldman进一步指出:“对于可持续性的承诺,通常并不包含在他们必须投入产品开发的核心要素之中。因此,除非他们内心有着强烈的道德驱动,或者公司对此有着明确的道德要求,否则他们可能缺乏推动这一进程的动力。这就像是商业世界中古老的道德与金钱的较量,而我们都知道,在大多数情况下,金钱往往会占据上风。这确实是一个值得我们深思的问题。也许,我们应该在学校中就教授工程伦理,因为如果我们不这样做,那么他们可能会继续制造出那些庞大而强大的计算设备,而这些设备将消耗大量的电力,并在大型数据中心中进行训练。”


尽管如此,运行AI模型仍然需要海量的处理器资源。“因此,你需要将数据中心里那些传统的CPU替换为运行效率高出数百万倍的GPU,以此来获取更为强大的计算能力,”他解释道,“而当你采取这样的措施时,其实也在无形中提升了能效。这听起来可能有点有悖常理,因为GPU的耗电量确实很大,但每个计算周期内它消耗的电量却要少得多。考虑到数据中心的空间资源十分有限(毕竟你不能无限制地扩建),所以你会选择拆除那些效率较低的处理器,换上GPU。这似乎让英伟达更为受益,因为他们能通过这种方式销售出更多的GPU,但事实确实如此。所以,即便在今天,当我们谈论Hopper H100s、H200s时——即便Blackwell即将面世,其性能可能要比现有的产品高出10倍甚至100倍——人们还是更倾向于购买Hopper,因为它的效率远超他们现有的设备。同时,他们通过这种方法节省下来的电力成本,甚至超过了购买和更换新设备的开支。然后,等Blackwell一上市,他们又会用Blackwell来替换Hopper,从经济角度来看,这对他们而言是划算的,同时也对解决电力问题有所帮助。这就是我们必须面对并解决的问题。我们必须综合考虑所涉及的资金成本,通过提升公司利润来激励大家减少电力消耗。”


应对人工智能能源/电力挑战


满足当前及未来大规模部署人工智能所带来的能源与电力需求,我们面临着三大核心挑战。“首先是如何高效地输送电力,”Woo表示,“近期新闻中频繁提及核电,或是探索提供核电级电力的新型方案。其次,是热量的处理问题。这些系统不仅仅追求性能的提升,更要在有限的空间内实现这一目标。因此,预测这些系统的功耗并设计有效的冷却方案至关重要。最后,是共同设计的机遇,即让硬件与软件协同工作,以获取额外的效率提升。这意味着我们要探索如何更好地利用硬件,通过软件优化其功能。此外,在半导体领域,供电问题确实是一大难题,而数据中心当前正经历的一大变革便是转向使用更高电压的电源。

产品开发团队在初期阶段就必须将能源效率纳入考量。


新思科技的Ruby进一步指出:“在产品开发流程的尾声再着手解决能效问题,无异于亡羊补牢。因为届时架构已定,众多设计决策也已尘埃落定。能效是一项贯穿整个开发流程的挑战,每个阶段都有其贡献的空间,但早期阶段的决策往往对最终功耗的影响更为深远。换言之,每一个看似微不足道的决定,都可能对芯片的整体功耗产生巨大的连锁反应。”


“左移”方法论,即在产品开发流程的早期阶段就同步进行硬件设计与软件编写,对于提升能源效率具有深远的影响。“这一方法论涵盖了诸如总体硬件架构设计、硬件与软件的划分、软件及编译器的优化、内存子系统架构设计,以及SoC级电源管理技术(例如动态电压和频率调整DVFS)的应用等多个关键决策点,这些仅仅是其中的几个例子。”Ruby表示。重要的是,为了全面理解并优化能源效率,我们还需要在实际的应用场景中运行工作负载以进行测试与评估。


然而,这仅仅是问题的一部分。我们的思维方式在可持续性方面也需要做出改变。“我们确实应该正视这个问题,但遗憾的是,整个行业似乎并未充分重视,”Expedera首席科学家Sharad Chole指出,“目前,我们的关注点仍然集中在成本上,而对于可持续性则鲜有考虑。”


但随着生成式人工智能模型和算法的稳定发展,其成本将变得更加可预测。这不仅涉及到数据中心资源的配置,更最终关联到电力的消耗。


“与以往的模型架构迭代相比,当前的生成式人工智能模型已经保持了相对长时间的稳定,不再像过去那样频繁变动,每个人都在进行微调,”Chole解释道,“Transformer架构已成为各项应用的基础。同时,在工作负载所需支持方面的创新也层出不穷,这对于提升能效极为有益。”


这也深刻地揭示了在追求优化时,必须仔细权衡重新训练模型的成本。“想象一下,要训练一个拥有40亿或50亿参数的模型,可能需要动用30,000个GPU,持续运行三个月之久,”Chole强调道,“这背后的成本是巨大的。”


但一旦这些模型及其运算公式得以确立,我们就能较为准确地估算出运行生成式AI模型所需的功率。


“OpenAI已经表明,他们能够预测其模型3.5和模型4的性能,同时还能将扩展定律应用于模型相对于训练数据集的增长趋势上,”他进一步解释道,“这种做法极具价值,因为它使企业能够规划未来:为了提升下一代模型的准确度,他们或许需要10倍以上的计算能力,或是3倍以上的数据集。这些定律虽然起初是为数量有限的模型开发的,但它们在模型洞察力方面的扩展性却相当出色。那些开发闭源模型的公司,比如OpenAI、Anthropic,以及其他致力于非开放模型研发的企业,他们可能在以我们难以理解的方式进行优化。由于他们对模型有着更深入的理解,因此能够在模型的训练和部署上实现优化。而且,鉴于他们在这一领域已经投入了数十亿美元,他们必然对如何扩展模型有着更为透彻的认识。‘在未来两年内,我需要筹集的资金数额就是这么多。’这样的预测相当可靠。因此,用户可以根据这些预测来规划,‘我们需要配置这么多的计算能力,需要建立这么多的数据中心,这就是我预期的电量需求。’这样的规划既周全又实用。”


电力闲置


管理大规模人工智能不断攀升的电力需求,一个至关重要的环节在于数据中心的设计与利用效率。


“数据中心市场的效率极低,这种低效主要源于建筑基础设施与运行应用程序的EDA两大市场空间之间的割裂,”Future Facilities(该公司已于2022年7月被Cadence收购)的创始人Hassan Moezzi指出,“人们常讨论功耗及其对市场的颠覆性影响。例如,如英伟达等提供的AI设备的功耗可能远超以往基于CPU的产品,且这种功耗的增长并无上限,因为市场对处理能力的需求总是贪得无厌。无论芯片和技术多么先进、高效,它们都不是功耗问题的根源所在。真正的功耗问题源自这种割裂与分歧。”


据Cato Digital的数据显示,2021年,数据中心产生的电力总量为105千兆瓦,但令人震惊的是,其中超过30%的电力从未被实际利用,Moezzi强调道,“这被称为闲置容量。数据中心的核心功能就是为用户提供运行应用程序所需的电力。这也是我们建造并运营这些造价高昂的建筑物的唯一目的。然而,闲置容量就像房间里的大象,人人都能看见,却常被忽视。


如果你与数据中心行业的从业者交流,特别是基础设施方面的专家,提及‘闲置容量’,他们往往会点头承认,但通常不会深入讨论。他们认为这是为了规避风险而进行的必要过度配置。但实际上,部分过度配置是故意的,这就导致了闲置容量的产生。而他们之所以过度配置,是因为从物理层面难以精准掌握数据中心内部的运行状况。值得注意的是,30%以上的闲置率并不适用于企业市场,即那些非超大规模的数据中心所有者,因为这些公司在工程导向方面通常更为高效,能够妥善处理相关问题。然而,对于企业、托管服务提供商(CoLo)以及政府数据中心而言,其效率要低得多。这意味着,如果你作为企业购买了一兆瓦的容量,能真正利用到其中的60%就已经算是幸运了。换句话说,实际的闲置率可能远超30%。”


这非常重要,因为关于数据中心和电网过度开发对环境造成的负面影响,社会各界一直争论不休。“但我们认为可以减缓这一进程,”Moezzi指出,“你或许无法完全阻止数据中心的建设,但你可以通过充分利用现有的闲置容量来显著延缓这一进程。”


结语


生成式人工智能的发展势如破竹,其迅猛的传播速度和广泛普及使得任何试图减缓其发展的努力都显得不切实际。然而,这并不意味着我们不能提升其效率。经济因素将成为推动行业向更高效方向发展的主要动力。当然,要实现这一点,并非依靠单一的解决方案,而是需要多种因素的有机结合,这包括开发更高效的处理器、构建能够使用更少功率却获得足够准确结果的人工智能模型,以及更有效地利用当前可用的电力资源。通过这些努力,我们有望推动生成式人工智能朝着更加环保、高效的方向发展。


END

TechSugar 做你身边值得信赖的科技新媒体
评论
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 79浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 141浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 99浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 93浏览
  • 在物联网(IoT)短距无线通信生态系统中,低功耗蓝牙(BLE)数据透传是一种无需任何网络或基础设施即可完成双向通信的技术。其主要通过简单操作串口的方式进行无线数据传输,最高能满足2Mbps的数据传输速率,可轻松实现设备之间的快速数据同步和实时交互,例如传输传感器数据、低采样率音频/图像与控制指令等。低功耗蓝牙(BLE)数据透传解决方案组网图具体而言,BLE透传技术是一种采用蓝牙通信协议在设备之间实现数据透明传输的技术,设备在通信时会互相验证身份和安全密钥,具有较高的安全性。在不对MCU传输数据进
    华普微HOPERF 2025-01-21 14:20 71浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 134浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 46浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 73浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 211浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 164浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 101浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦