(本文编译自Semiconductor Engineering)
在生成式人工智能(AI)出现之前,人们根本无法预见到为这些AI系统供电需要如此庞大的能量。如今,这些数字逐渐明朗,而如何持续满足这一需求的紧迫性也日益凸显。
据预测,到2026年,人工智能的电力需求将激增550%,从2024年的8TWh猛升至52TWh,而到了2030年,这一数字还将再增长1150%,达到惊人的652TWh。与此同时,美国电网规划人员已将对美国的负荷预测值上调了一倍,从2.6%增加到4.7%,预计到2028年将增加近38千兆瓦的电力负荷,这相当于在短短五年内,将另外两个纽约州大小的电力需求添加到美国电网中。
与此同时,微软和谷歌等科技巨头报告称,它们的电力消耗量已经超过了100多个国家的总用电量。谷歌的最新报告还显示,从2019年至2023年,其温室气体排放量将增加50%,其中部分原因正是其数据中心。
这一系列情况让整个科技行业陷入了深深的忧虑之中。芯片行业在计算耗电量方面表现良好,这确实反映了效率的提升。但在人工智能兴起之前,从未像现在这样大力推动计算能力的提升,因此许多人表示对此感到措手不及。这或许就是为什么现在有如此多的研究在探索传统能源的替代品,甚至包括核电站,这些核电站目前正被规划、建设或重新投入使用。
Arm基础设施业务线产品解决方案副总裁Dermot O'Driscoll表示:“AI模型会持续变大且更加智能,这将带动对更多计算能力的需求,进而增加电力需求,形成一个良性循环。找到降低这些大型数据中心电力消耗的方法,对于推动社会进步和实现AI的潜力至关重要。要知道,现在的数据中心已经消耗了大量的电力,全球每年所需的电力高达460太瓦时(TWh),这相当于整个德国的用电量。”
O'Driscoll进一步强调,为了充分发挥AI的潜力,整个行业需要重新审视计算架构和设计。尽管许多AI领域的超大规模企业正在采用Arm内核来减少功耗,但这仅仅是解决方案的一个方面。AI搜索需要为每个查询提供更精确、更有价值的信息,同时AI模型本身也需要变得更加高效。
新思科技电源分析产品管理的高级总监William Ruby也表示:“AI应用正在引发前所未有的电力需求。国际能源署在2024年的报告中提到,ChatGPT请求所消耗的电量是传统谷歌搜索的10倍。我们也注意到半导体IC领域出现了同样的情况。高性能计算应用的SoC功耗现在已达到数百瓦,有些情况下甚至超过了一千瓦。”
人工智能的横空出世及其随后的快速应用,确实给科技界和电力行业带来了不小的震撼。几年前,大多数人还普遍认为人工智能的发展会如同几十年前那样,步伐缓慢而稳健。
“90年代中后期的互联网,是个颠覆性的变革生活的技术,堪称千年一遇的奇迹。”Rambus杰出发明家Steven Woo表示,“智能手机同样如此。然而,人工智能的发展速度却远远超出了我们的预期,它的潜力与互联网不相上下,甚至在某些领域还可能更为巨大。随着越来越多的人投身于人工智能的实验与探索,用户们也开始尝试执行那些需要更多电力支持、更为复杂的任务,半导体行业因此被推向了提升能效的前沿。在许多方面,这些新型架构确实实现了更高的能效。
但是,与日益先进的人工智能所需计算量的迅猛增长相比,这些进步仍然显得微不足道。这就是一个典型的供不应求的困境。尽管我们一直在努力提升能效,但这还远远不够。现在,我们必须另辟蹊径,寻找更多的电力来源。随着模型的规模不断扩大、精度日益提升,我们的系统也变得越来越复杂。而现在,我们面临的最大挑战之一就是如何为这些复杂的系统提供足够的电力,并确保它们的有效散热。这些都是亟待解决的重大问题。”
人工智能与可持续发展
那么,所有这些电力究竟是从何而来呢?而在编写和训练算法的过程中,工程团队是否应当开始更加重视功耗问题呢?
Ansys的总监Rich Goldman对此给出了他的看法:“可持续性,这个问题在半导体行业内已经被关注了整整20年。人们早已认识到,我们需要低功耗的设计,以及能够帮助我们实现这些设计的软件。如今,这已经不仅仅是一个技术层面的考虑,更上升到了工程伦理和道德的高度。当我们的客户在购买芯片或训练模型时,他们会关心这些产品的功耗吗?我个人的观点是,功耗往往不是他们做出购买决定的关键因素。”
此外,工程师的奖励机制、评估标准和考核方式也在其中发挥着重要作用。Goldman进一步指出:“对于可持续性的承诺,通常并不包含在他们必须投入产品开发的核心要素之中。因此,除非他们内心有着强烈的道德驱动,或者公司对此有着明确的道德要求,否则他们可能缺乏推动这一进程的动力。这就像是商业世界中古老的道德与金钱的较量,而我们都知道,在大多数情况下,金钱往往会占据上风。这确实是一个值得我们深思的问题。也许,我们应该在学校中就教授工程伦理,因为如果我们不这样做,那么他们可能会继续制造出那些庞大而强大的计算设备,而这些设备将消耗大量的电力,并在大型数据中心中进行训练。”
尽管如此,运行AI模型仍然需要海量的处理器资源。“因此,你需要将数据中心里那些传统的CPU替换为运行效率高出数百万倍的GPU,以此来获取更为强大的计算能力,”他解释道,“而当你采取这样的措施时,其实也在无形中提升了能效。这听起来可能有点有悖常理,因为GPU的耗电量确实很大,但每个计算周期内它消耗的电量却要少得多。考虑到数据中心的空间资源十分有限(毕竟你不能无限制地扩建),所以你会选择拆除那些效率较低的处理器,换上GPU。这似乎让英伟达更为受益,因为他们能通过这种方式销售出更多的GPU,但事实确实如此。所以,即便在今天,当我们谈论Hopper H100s、H200s时——即便Blackwell即将面世,其性能可能要比现有的产品高出10倍甚至100倍——人们还是更倾向于购买Hopper,因为它的效率远超他们现有的设备。同时,他们通过这种方法节省下来的电力成本,甚至超过了购买和更换新设备的开支。然后,等Blackwell一上市,他们又会用Blackwell来替换Hopper,从经济角度来看,这对他们而言是划算的,同时也对解决电力问题有所帮助。这就是我们必须面对并解决的问题。我们必须综合考虑所涉及的资金成本,通过提升公司利润来激励大家减少电力消耗。”
应对人工智能能源/电力挑战
满足当前及未来大规模部署人工智能所带来的能源与电力需求,我们面临着三大核心挑战。“首先是如何高效地输送电力,”Woo表示,“近期新闻中频繁提及核电,或是探索提供核电级电力的新型方案。其次,是热量的处理问题。这些系统不仅仅追求性能的提升,更要在有限的空间内实现这一目标。因此,预测这些系统的功耗并设计有效的冷却方案至关重要。最后,是共同设计的机遇,即让硬件与软件协同工作,以获取额外的效率提升。这意味着我们要探索如何更好地利用硬件,通过软件优化其功能。此外,在半导体领域,供电问题确实是一大难题,而数据中心当前正经历的一大变革便是转向使用更高电压的电源。
”
产品开发团队在初期阶段就必须将能源效率纳入考量。
新思科技的Ruby进一步指出:“在产品开发流程的尾声再着手解决能效问题,无异于亡羊补牢。因为届时架构已定,众多设计决策也已尘埃落定。能效是一项贯穿整个开发流程的挑战,每个阶段都有其贡献的空间,但早期阶段的决策往往对最终功耗的影响更为深远。换言之,每一个看似微不足道的决定,都可能对芯片的整体功耗产生巨大的连锁反应。”
“左移”方法论,即在产品开发流程的早期阶段就同步进行硬件设计与软件编写,对于提升能源效率具有深远的影响。“这一方法论涵盖了诸如总体硬件架构设计、硬件与软件的划分、软件及编译器的优化、内存子系统架构设计,以及SoC级电源管理技术(例如动态电压和频率调整DVFS)的应用等多个关键决策点,这些仅仅是其中的几个例子。”Ruby表示。重要的是,为了全面理解并优化能源效率,我们还需要在实际的应用场景中运行工作负载以进行测试与评估。
然而,这仅仅是问题的一部分。我们的思维方式在可持续性方面也需要做出改变。“我们确实应该正视这个问题,但遗憾的是,整个行业似乎并未充分重视,”Expedera首席科学家Sharad Chole指出,“目前,我们的关注点仍然集中在成本上,而对于可持续性则鲜有考虑。”
但随着生成式人工智能模型和算法的稳定发展,其成本将变得更加可预测。这不仅涉及到数据中心资源的配置,更最终关联到电力的消耗。
“与以往的模型架构迭代相比,当前的生成式人工智能模型已经保持了相对长时间的稳定,不再像过去那样频繁变动,每个人都在进行微调,”Chole解释道,“Transformer架构已成为各项应用的基础。同时,在工作负载所需支持方面的创新也层出不穷,这对于提升能效极为有益。”
这也深刻地揭示了在追求优化时,必须仔细权衡重新训练模型的成本。“想象一下,要训练一个拥有40亿或50亿参数的模型,可能需要动用30,000个GPU,持续运行三个月之久,”Chole强调道,“这背后的成本是巨大的。”
但一旦这些模型及其运算公式得以确立,我们就能较为准确地估算出运行生成式AI模型所需的功率。
“OpenAI已经表明,他们能够预测其模型3.5和模型4的性能,同时还能将扩展定律应用于模型相对于训练数据集的增长趋势上,”他进一步解释道,“这种做法极具价值,因为它使企业能够规划未来:为了提升下一代模型的准确度,他们或许需要10倍以上的计算能力,或是3倍以上的数据集。这些定律虽然起初是为数量有限的模型开发的,但它们在模型洞察力方面的扩展性却相当出色。那些开发闭源模型的公司,比如OpenAI、Anthropic,以及其他致力于非开放模型研发的企业,他们可能在以我们难以理解的方式进行优化。由于他们对模型有着更深入的理解,因此能够在模型的训练和部署上实现优化。而且,鉴于他们在这一领域已经投入了数十亿美元,他们必然对如何扩展模型有着更为透彻的认识。‘在未来两年内,我需要筹集的资金数额就是这么多。’这样的预测相当可靠。因此,用户可以根据这些预测来规划,‘我们需要配置这么多的计算能力,需要建立这么多的数据中心,这就是我预期的电量需求。’这样的规划既周全又实用。”
电力闲置
管理大规模人工智能不断攀升的电力需求,一个至关重要的环节在于数据中心的设计与利用效率。
“数据中心市场的效率极低,这种低效主要源于建筑基础设施与运行应用程序的EDA两大市场空间之间的割裂,”Future Facilities(该公司已于2022年7月被Cadence收购)的创始人Hassan Moezzi指出,“人们常讨论功耗及其对市场的颠覆性影响。例如,如英伟达等提供的AI设备的功耗可能远超以往基于CPU的产品,且这种功耗的增长并无上限,因为市场对处理能力的需求总是贪得无厌。无论芯片和技术多么先进、高效,它们都不是功耗问题的根源所在。真正的功耗问题源自这种割裂与分歧。”
据Cato Digital的数据显示,2021年,数据中心产生的电力总量为105千兆瓦,但令人震惊的是,其中超过30%的电力从未被实际利用,Moezzi强调道,“这被称为闲置容量。数据中心的核心功能就是为用户提供运行应用程序所需的电力。这也是我们建造并运营这些造价高昂的建筑物的唯一目的。然而,闲置容量就像房间里的大象,人人都能看见,却常被忽视。
如果你与数据中心行业的从业者交流,特别是基础设施方面的专家,提及‘闲置容量’,他们往往会点头承认,但通常不会深入讨论。他们认为这是为了规避风险而进行的必要过度配置。但实际上,部分过度配置是故意的,这就导致了闲置容量的产生。而他们之所以过度配置,是因为从物理层面难以精准掌握数据中心内部的运行状况。值得注意的是,30%以上的闲置率并不适用于企业市场,即那些非超大规模的数据中心所有者,因为这些公司在工程导向方面通常更为高效,能够妥善处理相关问题。然而,对于企业、托管服务提供商(CoLo)以及政府数据中心而言,其效率要低得多。这意味着,如果你作为企业购买了一兆瓦的容量,能真正利用到其中的60%就已经算是幸运了。换句话说,实际的闲置率可能远超30%。”
这非常重要,因为关于数据中心和电网过度开发对环境造成的负面影响,社会各界一直争论不休。“但我们认为可以减缓这一进程,”Moezzi指出,“你或许无法完全阻止数据中心的建设,但你可以通过充分利用现有的闲置容量来显著延缓这一进程。”
结语
生成式人工智能的发展势如破竹,其迅猛的传播速度和广泛普及使得任何试图减缓其发展的努力都显得不切实际。然而,这并不意味着我们不能提升其效率。经济因素将成为推动行业向更高效方向发展的主要动力。当然,要实现这一点,并非依靠单一的解决方案,而是需要多种因素的有机结合,这包括开发更高效的处理器、构建能够使用更少功率却获得足够准确结果的人工智能模型,以及更有效地利用当前可用的电力资源。通过这些努力,我们有望推动生成式人工智能朝着更加环保、高效的方向发展。
END