它们的能效越高,数据中心的工作负载就越会把它们拉回到更遥远的起点。

“就在我以为我已经出局的时候,他们却把我拉了回来。”迈克尔·柯里昂(阿尔·帕西诺饰)在《教父》第三部中说道。服务器处理器的情况也大致如此:它们的功能越强大、能效越高,数据中心的工作负载就越会把它们拉回到更遥远的起点。

随着数据中心的规模、复杂性和连接性不断扩大,其耗电量也随之增加。根据国际能源署的数据,数据中心和数据传输网络排放的温室气体占能源相关温室气体排放总量的1%。据估计,2022年全球数据中心的耗电量为240TWh至340TWh,约占全球耗电量的1%至1.3%(不包括用于加密货币挖矿的能源)。1据一些消息来源称,这一比例甚至达到3%,位居各个行业(例如航空、航运、食品和烟草)之首。

尽管人们在提高处理器效率方面做出了巨大努力,但人工智能工作负载的快速增长导致能源消耗在过去十年中大幅增加,每年增长20%至40%。从2017年至2021年间,亚马逊、微软、谷歌和Meta云的总耗电量增加了一倍多,到2021年已达到约72TWh。1

目前数据中心的主要人工智能工作负载是深度学习、机器学习、计算机视觉和流媒体视频、推荐系统以及最近新增的自然语言处理。人工智能任务耗费大量计算能力,大型语言模型的要求尤其高。Google的PaLM语言模型相对高效。然而,其训练需要25亿petaFLOPS的计算量;也就是说,它的训练计算强度比AlexNet高500万倍以上,而AlexNet是2012年推出的用于机器视觉任务的卷积神经网络,它的出现预示着人工智能时代的到来2

根据非正式消息来源,OpenAI于2019年推出的GPT-2接受了3亿个文本数据标记的训练,并拥有15亿个参数。OpenAI的GPT-3(也被称为ChatGPT)接受了约4000亿个文本数据标记的训练,并拥有1750亿个参数。最近的ChatGPT模型GPT-4的细节尚未公开披露,但估计其规模在4000亿到1万亿个参数之间,训练数据集高达约8万亿个文本标记。3换句话说,训练GPT-3的工作量大约是GPT-2的150,000倍,而训练GPT-4所需的计算量约为GPT-3的50倍到120倍。由于推理会对计算资源造成压力,OpenAI还限制了用户向GPT-4发送消息的数量。4

大多数人工智能任务的工作负载与算术运算(通常是矩阵-矩阵或矩阵-向量乘法)相关,无论是训练还是推理(数据获取除外)。训练AI模型的计算强度等于训练时间、所用计算实例数量、峰值FLOPS和利用率的乘积。因此,功耗与时间(训练或推理)、并行计算实例(CPU、GPU、TPU、AI加速器等)的数量、实例的计算能力(如FLOPS)和利用率(即训练模型时GPU运行任务的时间比例)呈线性关系。

1显示了典型GPU的功耗分析5,其中内核消耗了总功耗的约50%,片外内存和内存控制器消耗了剩余的50%(CPU的分析类似)。

1典型GPU的功耗分析内核(50%)、内存控制器(20%)DRAM(30%)(来源:Zhao等人,20135)

因此,服务器处理器的功耗是很大的。根据基础设施提供商Vertiv的一份报告,服务器处理器节省1W的功耗可使整个数据中心总共节省2.84W的功耗。62说明了处理器节省1W的功耗对数据中心不同组件的影响,进而总共可节省约3倍的电力。例如,处理器节省1W,DC/DC电源转换可节省0.18W,AC/DC电源转换可节省0.31W,等等。值得注意的是,每节省1W的处理器功率,就能节省1.07W的冷却功率。

2:处理器每节省1W功率,数据中心单元累计节省的功率。从左到右,条形图绘制了整个数据中心累计功耗节省情况(来源:Vertiv20236)

目前的平均机架密度约为每个机架10kW。7因此,即使在服务器处理器上节省几个百分点,也可在机架层面节省大量电力,并对电力使用和温室气体排放产生积极影响。

虽然处理器性能的提升受限于功耗,但其他因素也不容忽视。通常情况下,我们追求的是下式所示指标的最大化:

性能÷(成本×面积×功耗)

其中,性能是指每秒的浮点或整数运算次数,而芯片成本、面积(mm2,掩模板尺寸有限)和功耗(W)则不言自明。从环保角度来看,首要目标是最大限度地提高性能功耗比。在提高性能的同时降低功耗通常是一个相互矛盾的要求。这里存在一个不利于上式最大化的恶性循环,因为它的变量是相互关联的,它们相互依赖于晶体管密度(技术节点)、晶体管数量、内存大小、时钟频率、驱动电压、内核和线程数量、晶圆产量等等。

我们已经在实践电源管理技术,如电压频率缩放和时钟门控。逻辑综合和物理设计优化也能帮上忙。下一步是什么?

环栅技术将提高单位面积的驱动电流,同时改善沟道控制,从而降低静态(泄漏)功率。将标称核心电压(VDD)降至0.65V将进一步节省动态功耗(与基于FinFET的处理器相比)。新型先进逻辑方法不断涌现,如准CMOS,通过修改电路拓扑,可显著提高性能功耗比。8

此外,针对特定应用的最佳性能功耗比可能无法通过通用处理器实现,而是要通过专门设计的特殊处理器架构来实现性能功耗比的最大化。全定制ASIC处理器已被部署到视频和推荐系统以及人工智能训练和推理中;这种趋势还将继续发展,并能获取更高的性能功耗比。在这种情况下,专用指令集处理器(ASIP)的指令集架构针对特定应用进行了优化定制,是获得额外环境效益的可行解决方案。

像芯粒(也即将大号的处理器分割成更小的裸片,以获得更低的成本和更高的产量)这样的封装技术,也可以改进电源管理,目前这种技术已被采用。芯粒可以使有效裸片面积大大增加到超出掩模版尺寸,并且业已证明,数千个小内核与智能能源管理相结合,可以实现最佳的性能功耗比。

虽然所有这些方向都属于处理器设计的范畴,但也应考虑重新定义人工智能模型的新算法,使其所需的计算能力和内存带宽更少,就像卷积神经网络中所发生的(即压缩)那样。

参考文献

1Rozite et al. (July 11, 2023). “Data Centres and Data Transmission Networks.” International Energy Agency.

2Roser, M. (Dec. 6, 2022). “The brief history of artificial intelligence: The world has changed fast – what might be next?” Our World in Data.

3Bastian, M. (March 25, 2023). “GPT-4 has more than a trillion parameters.” The Decoder.

4Hines, K. (July 19, 2023). “OpenAI Increases GPT-4 Message Cap To 50 For ChatGPT Plus Users.” Search Engine Journal.

5Zhao et al. (Dec. 1, 2013). “Optimizing GPU energy efficiency with 3D die-stacking graphics memory and reconfigurable memory interface.” ACM Transactions on Architecture and Code Optimization, 10(4), pp. 1–25.

6Vertiv. (2023). “Energy Logic: Calculating and Prioritizing Your Data Center IT Efficiency Actions.”

7CoreSite. (2023). “Facing the Data Center Power Density Challenge.”

8NeoLogic. “Powering the Next Generation Processors: A New VLSI Design Paradigm.”

(原文刊登于EE Times欧洲版,参考链接:Server Processors in the AI Era: Can They Go Greener?,由Franklin Zhao编译。)

本文为《电子工程专辑》2024年6月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • AI的目的不就是取代实体人?一个实体人的耗电量是多少?AI耗电与实体人耗电有个损益平衡点吧?过了这个点,AI不就更环保了?这意味着这是一个什么样的过程呢?明说吧!被取代的实体人何去何从?生孩子的前提是认识到自己和后代不会被AI取代?
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力,以及在马斯克在当选总统特朗普政府中的“特殊地位”,多家分析机构认为,马斯克的财富未来还将进一步增长。
近日,曾因恶意攻击其实习公司字节跳动的模型训练集群,而被起诉索赔800万元人民币的前实习生田柯宇,获得了NeurIPS 2024的最佳论文奖。因其戏剧性和涉及道德及职业行为的问题,引起了广泛的关注和讨论。
面对企业危机,三星电子已提前启动年终人事调整,特别是半导体业务部门。此次人事变动旨在恢复公司的竞争力,涉及高层退休通知及管理层重组,预计将在未来一周内公布更多细节。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题