它们的能效越高,数据中心的工作负载就越会把它们拉回到更遥远的起点。

“就在我以为我已经出局的时候,他们却把我拉了回来。”迈克尔·柯里昂(阿尔·帕西诺饰)在《教父》第三部中说道。服务器处理器的情况也大致如此:它们的功能越强大、能效越高,数据中心的工作负载就越会把它们拉回到更遥远的起点。

随着数据中心的规模、复杂性和连接性不断扩大,其耗电量也随之增加。根据国际能源署的数据,数据中心和数据传输网络排放的温室气体占能源相关温室气体排放总量的1%。据估计,2022年全球数据中心的耗电量为240TWh至340TWh,约占全球耗电量的1%至1.3%(不包括用于加密货币挖矿的能源)。1据一些消息来源称,这一比例甚至达到3%,位居各个行业(例如航空、航运、食品和烟草)之首。

尽管人们在提高处理器效率方面做出了巨大努力,但人工智能工作负载的快速增长导致能源消耗在过去十年中大幅增加,每年增长20%至40%。从2017年至2021年间,亚马逊、微软、谷歌和Meta云的总耗电量增加了一倍多,到2021年已达到约72TWh。1

目前数据中心的主要人工智能工作负载是深度学习、机器学习、计算机视觉和流媒体视频、推荐系统以及最近新增的自然语言处理。人工智能任务耗费大量计算能力,大型语言模型的要求尤其高。Google的PaLM语言模型相对高效。然而,其训练需要25亿petaFLOPS的计算量;也就是说,它的训练计算强度比AlexNet高500万倍以上,而AlexNet是2012年推出的用于机器视觉任务的卷积神经网络,它的出现预示着人工智能时代的到来2

根据非正式消息来源,OpenAI于2019年推出的GPT-2接受了3亿个文本数据标记的训练,并拥有15亿个参数。OpenAI的GPT-3(也被称为ChatGPT)接受了约4000亿个文本数据标记的训练,并拥有1750亿个参数。最近的ChatGPT模型GPT-4的细节尚未公开披露,但估计其规模在4000亿到1万亿个参数之间,训练数据集高达约8万亿个文本标记。3换句话说,训练GPT-3的工作量大约是GPT-2的150,000倍,而训练GPT-4所需的计算量约为GPT-3的50倍到120倍。由于推理会对计算资源造成压力,OpenAI还限制了用户向GPT-4发送消息的数量。4

大多数人工智能任务的工作负载与算术运算(通常是矩阵-矩阵或矩阵-向量乘法)相关,无论是训练还是推理(数据获取除外)。训练AI模型的计算强度等于训练时间、所用计算实例数量、峰值FLOPS和利用率的乘积。因此,功耗与时间(训练或推理)、并行计算实例(CPU、GPU、TPU、AI加速器等)的数量、实例的计算能力(如FLOPS)和利用率(即训练模型时GPU运行任务的时间比例)呈线性关系。

1显示了典型GPU的功耗分析5,其中内核消耗了总功耗的约50%,片外内存和内存控制器消耗了剩余的50%(CPU的分析类似)。

1典型GPU的功耗分析内核(50%)、内存控制器(20%)DRAM(30%)(来源:Zhao等人,20135)

因此,服务器处理器的功耗是很大的。根据基础设施提供商Vertiv的一份报告,服务器处理器节省1W的功耗可使整个数据中心总共节省2.84W的功耗。62说明了处理器节省1W的功耗对数据中心不同组件的影响,进而总共可节省约3倍的电力。例如,处理器节省1W,DC/DC电源转换可节省0.18W,AC/DC电源转换可节省0.31W,等等。值得注意的是,每节省1W的处理器功率,就能节省1.07W的冷却功率。

2:处理器每节省1W功率,数据中心单元累计节省的功率。从左到右,条形图绘制了整个数据中心累计功耗节省情况(来源:Vertiv20236)

目前的平均机架密度约为每个机架10kW。7因此,即使在服务器处理器上节省几个百分点,也可在机架层面节省大量电力,并对电力使用和温室气体排放产生积极影响。

虽然处理器性能的提升受限于功耗,但其他因素也不容忽视。通常情况下,我们追求的是下式所示指标的最大化:

性能÷(成本×面积×功耗)

其中,性能是指每秒的浮点或整数运算次数,而芯片成本、面积(mm2,掩模板尺寸有限)和功耗(W)则不言自明。从环保角度来看,首要目标是最大限度地提高性能功耗比。在提高性能的同时降低功耗通常是一个相互矛盾的要求。这里存在一个不利于上式最大化的恶性循环,因为它的变量是相互关联的,它们相互依赖于晶体管密度(技术节点)、晶体管数量、内存大小、时钟频率、驱动电压、内核和线程数量、晶圆产量等等。

我们已经在实践电源管理技术,如电压频率缩放和时钟门控。逻辑综合和物理设计优化也能帮上忙。下一步是什么?

环栅技术将提高单位面积的驱动电流,同时改善沟道控制,从而降低静态(泄漏)功率。将标称核心电压(VDD)降至0.65V将进一步节省动态功耗(与基于FinFET的处理器相比)。新型先进逻辑方法不断涌现,如准CMOS,通过修改电路拓扑,可显著提高性能功耗比。8

此外,针对特定应用的最佳性能功耗比可能无法通过通用处理器实现,而是要通过专门设计的特殊处理器架构来实现性能功耗比的最大化。全定制ASIC处理器已被部署到视频和推荐系统以及人工智能训练和推理中;这种趋势还将继续发展,并能获取更高的性能功耗比。在这种情况下,专用指令集处理器(ASIP)的指令集架构针对特定应用进行了优化定制,是获得额外环境效益的可行解决方案。

像芯粒(也即将大号的处理器分割成更小的裸片,以获得更低的成本和更高的产量)这样的封装技术,也可以改进电源管理,目前这种技术已被采用。芯粒可以使有效裸片面积大大增加到超出掩模版尺寸,并且业已证明,数千个小内核与智能能源管理相结合,可以实现最佳的性能功耗比。

虽然所有这些方向都属于处理器设计的范畴,但也应考虑重新定义人工智能模型的新算法,使其所需的计算能力和内存带宽更少,就像卷积神经网络中所发生的(即压缩)那样。

参考文献

1Rozite et al. (July 11, 2023). “Data Centres and Data Transmission Networks.” International Energy Agency.

2Roser, M. (Dec. 6, 2022). “The brief history of artificial intelligence: The world has changed fast – what might be next?” Our World in Data.

3Bastian, M. (March 25, 2023). “GPT-4 has more than a trillion parameters.” The Decoder.

4Hines, K. (July 19, 2023). “OpenAI Increases GPT-4 Message Cap To 50 For ChatGPT Plus Users.” Search Engine Journal.

5Zhao et al. (Dec. 1, 2013). “Optimizing GPU energy efficiency with 3D die-stacking graphics memory and reconfigurable memory interface.” ACM Transactions on Architecture and Code Optimization, 10(4), pp. 1–25.

6Vertiv. (2023). “Energy Logic: Calculating and Prioritizing Your Data Center IT Efficiency Actions.”

7CoreSite. (2023). “Facing the Data Center Power Density Challenge.”

8NeoLogic. “Powering the Next Generation Processors: A New VLSI Design Paradigm.”

(原文刊登于EE Times欧洲版,参考链接:Server Processors in the AI Era: Can They Go Greener?,由Franklin Zhao编译。)

本文为《电子工程专辑》2024年6月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • AI的目的不就是取代实体人?一个实体人的耗电量是多少?AI耗电与实体人耗电有个损益平衡点吧?过了这个点,AI不就更环保了?这意味着这是一个什么样的过程呢?明说吧!被取代的实体人何去何从?生孩子的前提是认识到自己和后代不会被AI取代?
您可能感兴趣
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
从品牌战略的角度来看,华为本次选择古代神话中的人物作为商标,可能是为了借助这些神话角色的知名度和文化内涵,打造具有中国特色的品牌形象……
随着全球数字化转型市场蓬勃发展,云计算、人工智能、大数据、5G等技术的应用范围不断扩大,全球企业的数字化转型已经来到了持续发展阶段,这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范,推动全球养老机器人产业的健康发展,通过明确养老机器人的功能与性能分类,确保其在互联家居环境中的有效应用。
2月以来,一些人形机器人头部企业高薪案例值得关注。其中,宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位,月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元,年薪超百万(15薪制)。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
千万级中标项目5个,百万级中标项目12个。文|新战略根据公开信息,新战略移动机器人产业研究所不完全统计,2025年2月,国内发布35项中标公告,披露总金额超15527.01万元。(由新战略移动机器人全
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----编者荐语特征提取是计算机
数据民主化终极拷问:借助大模型问数,究竟能不能实现灵活、准确、深入的数据洞察?“华东区会员复购率是多少?”——业务提需求3天,IT排期2周,口径对齐5轮。“为什么A产品毛利异常?”——指标定义模糊,数
市值一夜蒸发2900亿”作者|王磊编辑|秦章勇特斯拉陷入一个怪圈。马斯克的权力越来越大,但特斯拉的股价却跌得越来越惨。就在昨天,特斯拉股价又下跌了4.43%,一天之内蒸发406亿美元,约合人民币295
‍‍近几年,随着Mini/Micro LED技术的高速发展,LED产业呈现几大发展趋势,如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成,以及RGB 封装与COB 降本需求迫
高通又放大招了!3月3日,也就是MWC世界移动通信大会的第一天,高通正式宣布,推出自家的最新5G调制解调器及射频解决方案——高通X85。高通X85对于高通X85的发布,行业早有关注。因为高通的手机So
据报道,小米集团总裁卢伟冰在西班牙巴塞隆纳的全球发表会上表示,小米汽车计划于2027年进军海外市场。小米的立足之本在于深耕本土市场,作为一家中国车企,唯有在国内市场站稳脚跟,方能谈及海外扩张。因此,小
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----来源: 逍遥设计自动化申
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感
如果说华为代表了国产手机芯片的最高水平,那么紫光展锐无疑就是国产中低端芯片最大的依持了。3月3日,巴塞罗那MWC世界移动通信大会上,紫光展锐正式发布手机芯片T8300。据了解,T8300采用的是6nm