ChatGPT查询比传统的Google搜索耗电量高出6到10倍。
所有在线互动都依赖于存储在远程服务器中的数据。这些服务器堆叠在世界各地的数据中心,需要大量能源。目前,数据中心约占全球用电量的1.0%–1.5%,预计到本世纪末,这一数字将增加到3%–4%,这在很大程度上是由于人工智能(AI)的蓬勃发展。
人工智能已经成为一股变革力量,改变了我们处理、分析和利用所有行业数据的方式。人工智能发展如此迅速,世界经济论坛报告称,维持人工智能崛起所需的计算能力大约每100天翻一番。
而且,人工智能计算比传统的互联网查询耗能更多。例如,ChatGPT查询比传统的Google搜索耗电量高出6到10倍。
根据施耐德电气(OTCPK:SBGSF)白皮书,人工智能目前约占4.5 GW的电力消耗,预计将以每年25%至33%的速度增长,到2028年总消耗量将达到14 GW至18.7 GW。
如上表所示,AI工作负载分为两个关键阶段(训练和推理)。这两个阶段主要通过能源使用和水消耗来影响环境。目前,AI的环境足迹分为训练阶段约占20%,推理阶段占80%。
在训练阶段,AI模型通过消化大量数据来学习模式,这需要大量的能源。例如,训练GPT-3(ChatGPT的前身)的图形处理单元(GPU)估计消耗了1,300兆瓦时的电力,大致相当于1,450个美国家庭每月平均用电量。这些模型还需要冷却用水以及发电和制造用水。
据摩根大通的ChatESG 8称,“在微软最先进的美国数据中心训练GPT-3会蒸发70万升清洁淡水。”
训练完成后,AI模型将进入推理阶段并开始运行。新工具可以减轻人工智能的工作量:
限制功率。为了降低AI工作负载的能耗,制造商和开发商都在研究限制GPU功耗的方法,并提高工作负载的准确性。“限制功率”是一种可通过软件在数据中心采用的技术。它涉及设置GPU或CPU等硬件组件的功耗限制,以管理能源使用情况。根据麻省理工学院林肯实验室10的研究,在AI模型训练期间限制GPU的功率可使能耗减少12%–15%。但缺点是,限制功率可能会使任务时间增加约3%。但是,考虑到模型的训练时间为几天、几周或几个月,这个时间增加可以忽略不计。
剔除表现不佳的模型。此外,在训练期间,AI开发人员可以专注于提高准确性。通过分析模型学习的速度,开发人员可以尽早停止表现不佳的模型。再次引用林肯实验室的研究,“......尽早停止可以带来巨大的节省:用于模型训练的能量减少了80%。”
优化硬件。为了提高推理阶段的能源效率,可以利用优化器将AI模型与碳效率最高的硬件组合进行匹配,例如,在计算密集的推理部分使用高功率GPU,在计算要求较低的部分使用低功耗中央处理器(CPU),可以在不影响性能的情况下将能耗降低10%至20%11。
微软是一家采用工具来减轻AI工作量的公司。据该公司称,截至2023年6月,微软已将其功率上限系统部署到公司数据中心的数百万台服务器上,从而释放了数百兆瓦的收获电能12。该上限系统还允许Bing和Bing Ads通过最大化进气量(也称为涡轮增压)安全地提高性能,从而使性能提高约20%。
微软还开发了定制数据中心芯片,例如Azure Maia(也称为Maia 100),这是一款针对AI优化的GPU,专为运行复杂的AI工作负载而设计。它基于5nm节点构建,并针对可扩展性和可持续性进行了优化,具有动态功率优化和液体冷却等功能。
数据中心的能源需求由计算(占电力需求的40%)和冷却(占40%)驱动。剩余的20%则由电源、存储和通信设备13所占。因此,数据中心基础设施的改善也可以在减少数据中心对环境的影响方面发挥重要作用。
由于冷却占数据中心能源需求的40%,因此高效冷却是重中之重。从空气冷却到液体冷却的转变是一项潜在的基础设施创新,许多人认为它具有变革性。在直接进入芯片的液体冷却方法中,“……冷却液在服务器中循环以吸收和散发热量,并且作为一种处理AI集群产生的集中热量的更有效方法,它正在迅速普及。”14与空气冷却相比,液体冷却消耗的能量减少了10%15,提高了电力利用率,并减少了用水量。
英伟达正在积极支持其高性能数据中心GPU的直接芯片液体冷却。他们已经发布了采用这种冷却方法的首款数据中心PCIe GPU。此外,英伟达计划继续支持其GPU和HGX平台中的液体冷却。总之,这种方法提高了AI工作负载的效率、可持续性和最佳系统性能。此外,Nv获得了美国能源部(DOE)的500万美元奖励,用于开发一种结合两相直接芯片和浸入式冷却技术的冷却解决方案,使用符合环保要求的制冷剂16。
目前全球约有8,000个数据中心在运营。美国以占数据中心总数的三分之一领先,其次是欧洲(16%)和在华(10%)。在过去十年中,这些数据中心的性质已经发生了变化,从“传统”转变为“云”和“超大规模”。
随着超大规模企业(即最大的数据中心所有者-谷歌、微软和亚马逊)的崛起,数据中心的效率有所提高,因为上述所有公司都制定了气候目标,并面临着实现这些目标的内部和外部压力。但人工智能的崛起正在危及这些企业目标。目前采购可再生能源或利用碳信用/抵消的做法已不再足够。
谷歌除了确保使用高效硬件、弹性电源和冷却系统来改善AI工作负载之外,超大规模企业还必须确保采购可再生能源。为此,许多企业都在效仿谷歌进行“负荷转移”。超大规模企业不再仅仅依赖电网的化石燃料和可再生能源组合,而是试图以每日甚至每小时为单位转移全球数据中心的运营,以跨时区获取过剩的可再生能源生产运营。谷歌迈出了开创性的一步,按小时将其数据中心的电力使用与零碳能源保持一致。然而,实现不间断的清洁能源仍然难以实现。
人工智能是一项变革性技术,但它的使用直接导致碳排放量上升和数百万加仑淡水的消耗。然而,它也可以发挥积极作用,提高建筑效率、医疗保健和气候建模。显而易见的是,人工智能的发展不能以牺牲地球为代价。
因此,美国和国外的许多官方代表正在努力开发一个标准化系统,以报告人工智能对社会和环境的影响。引领这一进程的是国际标准化组织(ISO),它将发布“可持续人工智能”的标准,其中包括衡量能源效率、原材料使用、运输和水消耗的标准,以及在整个生命周期内减少人工智能影响的做法。“ISO希望让人工智能用户能够就他们的人工智能消费做出明智的决定。”
关注下面公众号
和我一起探索港股市场的所有秘密
👇🏻