这个电源技术,要爆发了

电子工程世界 2024-08-14 07:01
▲ 点击上方蓝字关注我们,不错过任何一篇干货文章!
处理器和数据中心架构正在发生变化,以满足运行 AI 和大型语言模型 (LLM) 的服务器的更高电压需求。

曾经,服务器运行时耗电量只有几百瓦。但在过去几十年里,由于需要处理的数据量大幅增加,以及用户要求更快处理数据,情况发生了巨大变化。NVIDIA 的Grace Blackwell芯片消耗 5 到 6 千瓦,这大约是过去服务器总功耗的 10 倍。

功率是电压乘以电流。“如果我需要 5 千瓦,我可以在 120 伏的标准电压下实现。” Rambus的杰出发明家 Steven Woo 说道。“但我需要 40 安培的电流,这是很大的电流。”

这类似于你在五金店购买的那种电线。“大电流电线有很多不同的直径,而且非常粗。”Woo 说。“以前大家都认为服务器的功率可能是 1 或 2 千瓦,对于 120 伏电压,你只需提供 10 安培的电流。现在,由于功率需求高得多,如果我将电压保持在 120 伏,我必须提供四倍甚至更高的电流,但电线无法承受这么大的电流,它们会熔化。”

如果不能提高电流,那么另一个选择就是提高电压。“电流乘以电压等于 5 千瓦,”Woo 指出。“如今服务器的电压为 48 伏,而以前是 12 伏。现在 NVIDIA 正在讨论 48 伏,他们将电压提高了四倍,这使得他们能够在保持电流不变的情况下将功率提高四倍。”

这种变化反映在电源上,西门子 EDA 嵌入式电路板系统部市场开发经理 Rod Dudzinski 指出:“我们看到客户在构建大型数据中心时,寻求不同的途径来提供运行机架式系统所需的电力。一些数据中心公司正在借鉴高性能电源模块和相关电力电子产品的理念和概念来实现这一目标,例如高效的电源转换为热效率再到终身可靠性。到 2025 年,传统数据中心的功耗预计将增加 50%,因此,电路板级电源转换效率和功率密度对于系统架构师来说是首要考虑因素,应将其作为减少系统中每个 PCB 配电网络 (PDN) 损耗的手段。”

类似的变化也反映在 EDA 中。Movellus战略营销副总裁 Lee Vick 表示,数据中心电源领域正在发生的事情与 EDA 领域正在发生的事情有相似之处。“在芯片设计领域,我们过去的情况是,通过 EDA 工具流程单独制作晶体管,但这些工具是一系列不同的工具——布局工具、时序工具、布线工具。最终,我们不得不转向一个集成这些工具、集成流程和集成数据的世界,以满足现代世界的性能需求。现在,即使是 EDA 公司也不会止步于设计,因为你必须管理芯片的生命周期,从设计到测试和制造,一直到现场,在那里他们会对设备进行检测并捕获遥测数据,以反馈到设计过程中并改进测试。这是一个完整的生命周期。这是一个完全集成的垂直流程(即使它在时间框架上是水平的),这是至关重要的。”

类似的趋势也适用于数据中心的电力。“以前,当你设计芯片时,你会有一个功耗预算,”Vick说。“或者,如果你是一名工程师,你被安排设计一个模块,你会有一个针对该特定模块的功耗预算,你不敢超出这个预算。但这就是你需要关心的一切——输入和输出。现在情况已经不同了。在数据中心,我们看到需求已经远远超出了子集或芯片,而是扩展到主板、机架、数据中心层面。”

这里的连锁反应很重要,而不仅仅是必须将功耗降至最低。“每个人都必须将功耗降至最低,”他说。“有限制,有需求,也有变化。你必须能够对它们做出反应。另一个关键的事情是,我们已经远远超越了假设,超越了‘这是未来的事情’的夸张。在最近的 DAC 上,我们有一个小组,讨论的是管理千瓦功率预算。我们有来自 IC 设计、EDA、IP 和系统设计的行业专家,所有人和组织都在发挥作用。这不是 IP 提供商、芯片设计师或 EDA 公司可以单独解决的问题,这需要每个人共同努力。同样,在数据中心,我们必须改善电力分配和散热,这只会在宏观层面增加能耗。但现代数据中心的芯片和芯片内部的大量芯片和计算元件的规模只会加剧这种情况。”

Ansys首席应用工程师 Ashutosh Srivastava认为,这种情况是双向的,因为芯片设计会导致功耗激增,因为最新的 AI 芯片(包括 GPU)在进行更大、更快的计算时会消耗更多能量。在某些情况下,每台服务器的功耗超过 2 千瓦。“与此同时,芯片架构师也在寻求设计一种芯片来优化功耗而不影响性能,因为它们的运行成本会更高——不仅是电力成本,还有散热基础设施。”

此外,数据中心的上游配电也正在发生变化,以适应更大的电力需求,其中包括将机架中的分布式总线电压从旧的 12V 更改为 48V。Srivastava 表示:“通过将电压提高 4 倍,电流可以减少了 4 倍,传导损耗减少了 16 倍。机架中的每个转换器也经过重新设计,以提高效率。通过高效转换器,可以优化与芯片直接供电相关的功率损耗。例如将芯片的电源直接堆叠在顶部有助于减少这种功率损耗。”

 解决“最后一公里”的供电 


已经有不少电源厂商都推出了包括48V以及垂直供电技术,从而降低损耗并提高瞬态响应速度。

比如Vicor就推出了分比式电源架构 (FPA) ,取代传统多相位稳压器,可提高密度和电源系统效率,FPA 将功率转换分解为单独的稳压和变压功能,这些功能可以单独优化,最大限度提高性能。稳压模块可部署在主板上的任何位置,而重要电流输出模块电流倍增器则可针对密度、效率和低噪声进行优化,并可部署在非常接近处理器的位置。电流倍增器不仅能够提供超过 1000Amp 的大电流,而且还可让 PDN 电阻锐降 50 倍。Vicor 可根据处理器电流,提供横向及纵向分比式电源选项。

横向供电 (LPD):大电流传输通过模块化电流倍增器 (MCM) 模块实现,这些模块布置在主板或处理器基板上,与处理器相邻。将 MCM 布置在基板上,不仅可最大限度降低 PDN 损耗,而且还可减少电源所需的处理器基板 BGA 引脚。LPD 旨在支持 OCP 加速器模块 (OAM) 卡及定制 AI 加速器卡的供电需求和独特封装。

垂直供电 (VPD):对于极高的处理器电流,VPD 将电流倍增器模块直接部署在处理器下方,与 LPD 相比,这可将 PDN 电阻再降低达 10 倍之巨。垂直供电的另一项优势是为高速 I/O 和存储器开放了上层 PCB 的电路板面积。VPD 采用与 Vicor LPD 解决方案类似的电流倍增器,但将通常部署在处理器下方的高频率旁路电容集成在与 MCM 连接的变速器封装中。此外,该变速器还允许对从 MCM 的输出引脚到处理器电源引脚的间距进行必要的修改,其输出电源引脚也与处理器或 ASIC 的电源映射相匹配,可最大限度提高性能。

MPS也提供了水平供电和垂直供电两种模式,其中水平供电解决方案的第一级使用了800W的MPC12109,利用高性能的LLC拓扑全面实现软开关,在极致小尺寸的同时峰值效率可以达到98%;第二级采用多颗MPC22167模块并联实现强大的输出能力。其中,单模块集成了两组DrMOS和电感,采用顶部散热的方式。凭借业内领先的低压大电流工艺以及高性能数字COT控制器,MPS的整体方案不仅拥有较高的电源质量,同时设计简单灵活。

MPS垂直供电解决方案同样采用两级架构,其特点是通过10:1的LLC模块将48V输入电压转为更低的4.8V,进一步发挥MPS低压大电流工艺的优势。同时采用先进的电感技术将第二级的多相功率模块整体高度压缩在5mm以内,突破了多相电源在主芯片背面布局的难关。由于垂直供电方案的功率传输路径长度只是PCB板子的厚度,极大地减小了传输路径寄生参数对电源质量的影响,同时也大大降低了路径功率损耗。这种新颖的垂直供电方式将在未来AI的发展进程中大放异彩。

英飞凌的TDM2254xD 双相电源模块,支持垂直供电,减少 PDN 损耗并提高功率密度。其封装尺寸为10x9x8 mm + 10x9x5 mm,峰值电流为 160 A,满载时效率比同类产品高出 2%。

 新数据中心考虑因素 


数据中心设计的另一个重要考虑因素是其位置。“通常,这些数据中心位于城市地区,因此数据中心的能源效率不高——与人口的电力需求竞争可能会限制其容量,”Srivastava 说。“因此,一些地区禁止建造新的数据中心,如果情况紧急,数据中心将需要减少其电力负荷,以便为社区的其他重要区域供电。这意味着要么制造节能的计算硬件,要么寻找替代电源。这导致了另一种趋势,大型数据中心现在正在考虑建造自己的发电厂来提供所需的电力,尤其是来自可持续和可靠来源的电力。这可能采用传统的太阳能或风能与储能相结合的形式,甚至正在开发中的小型模块化核反应堆 (SMR)。”

数据中心的电源管理是一项不断发展的挑战。Cadence 产品工程总监 Mark Fenton 表示: “IT 负载在一天中可能会发生很大波动,受到各种应用程序需求的影响。机柜的功率是一组复杂的变化变量——其当前用电量、未来项目的预算容量以及最大设计限制。反过来,电力分配和容量可以在多个数据中心之间共享。”

例如,在共置环境中,用户不断调整对共享系统的需求,几乎不了解 IT 已安装或即将安装的内容。“新的 GPU 工作负载表现出不同的功率行为,通常会导致大量且几乎瞬时的功率峰值,”Fenton 说。“这些波动对数据中心电力基础设施构成了重大的故障风险,这是一个主要问题。为了优化效率并最大限度地利用可用功率,利用三相电源是有益的,但同时需要平衡相位以防止效率低下至关重要。”

 电压转换中的功率损耗 


数据中心的电压转换涉及多个转换和调节阶段,这可能导致严重的功率损耗。“如果我的服务器现在是 48 伏电压,那么问题在于芯片本身仍然需要在 12 伏或 5 伏,甚至 1 伏电压下运行。”Rambus 的 Woo 说道。“这意味着必须降低电压。但每次降低电压时,都会损失一些功率,因此效率会开始下降。这是因为转换电压水平需要功率,所以这是一个大问题,转换不同的电压会消耗大量功率。”

这意味着数据中心基础设施必须将建筑公用设施电源转换为机架级的单相或三相电源。“电压可能会从 13.8 kV(中压)降至 480 V 或 208 V(低压),随后降至 240 V 或 120 V,”Fenton 说。“部分负载下的效率往往更高,而且由于大多数电源采用 2N 冗余供电,因此系统的很大一部分在这些部分负载条件下运行。”

Ansys 高级应用工程师 Steve Chwirka 指出,损耗始于将公用电源从 480V 交流电降压的大型变压器。“这种新的较低交流电压通过多种类型的电缆和 PDU(配电单元)进行分配,这些 PDU 基本上是非常大的母线。所有这些都会导致系统中的传导损耗。有几种电源转换级别也与功率损耗有关。其中包括不间断电源 (UPS),它在故障条件下为机架供电,时间刚好够备用发电机启动。主要的转换发生在机架上,交流电压转换为高压直流,然后通过电源单元 (PSU) 转换为较低的直流电压。这个直流电压现在要经过几个级别的转换,才能到达芯片。”

在每个级别,功率损耗量都不同。从公用设施输入到芯片,Chwirka 对功率损耗进行了一些估算。“电力变压器是非常高效的机器,损耗仅为 1% 到 2%。UPS 系统的效率会根据其设计和负载条件而有所不同。提供最高级别保护的在线 UPS 系统的效率通常为 90% 到 95% 之间。因此,它们会损耗 5% 到 10% 的电力。PDU 也有一些固有损耗。这些损耗会导致大约 1% 到 2% 的额外损耗。现代 PSU 的效率通常为 80% 到 95% 之间。这意味着在从交流转换为直流的过程中可能会损耗 5% 到 20% 的功率。额外的转换器(有时称为中间总线转换器 (IBS))将机架的 48 V DC 转换为 8 到 12 V DC,效率可高达 98% 左右。由于尺寸限制,芯片所需的低电压的最终转换效率比IBC略低。”

 关于电力输送你需要知道什么 


在设计数据中心环境时需要考虑很多因素,其中最重要的事情之一就是高电压周围的基础设施。“如果高电压进入系统,你需要知道如何将电压降低到你需要的水平,”Woo 指出。“可能是一些外部电路在进行降压。有一些片上方法可以在小范围的电压上进行电压管理。最重要的是真正了解你的芯片将消耗多少电量,并了解这些电量来自哪里。这通常是一个系统级问题。还有关于老化的问题,因为有时芯片升温时会发生膨胀。制造芯片的不同材料的膨胀速率都不同,如果进行热循环(即在高温和低温之间频繁切换),这可能会导致开裂和其他可靠性问题。”

架构也有影响。Ansys 研究员 Norman Chang 解释说,随着 3D-IC 芯片组越来越大,芯片架构师需要考虑将电源垂直分配到芯片组,例如 Tesla D1 Dojo 芯片中的电源系统设计。“架构师还需要考虑热分布,因为通过系统技术协同优化,3D-IC 中放置了数十个芯片,”他说。“3D-IC 中的模拟/混合信号设计需要放置在对峰值计算工作负载产生的热/应力变化不太敏感的位置。

最终,数据中心电力输送方面的挑战将落入芯片和系统架构师的视野。Movellus 的 Vick 表示:“作为一名计算机架构师,我非常注重数字化和处理器。后来我开始为硬 IP 公司工作,他们会问‘你们的供电有多少个脉冲?’我会说‘我不知道。电源就在那里。它总是干净的,你不必担心。’但实施和集成等因素很重要——你的电源有多干净,以及你如何布线。我们在架构层面看到的一件事是,当你集成电路的模拟部分时,无论是电源调节、传感器还是时钟,你必须将模拟电压运行在传统数字区域,这一简单事实可能会严重破坏你的设计。假设我有一大块消耗大量能源的数字逻辑。我想看看电网端发生了什么,我想看看是否出现了信号下降。但这需要把一个模拟传感器塞进这些数字逻辑中,这很难做到。”

将模拟设计迁移到数字设计可以让你更自由地进行更多仪表形式的操作,并了解正在发生的事情。“这是超出模块功能范围的一个例子,”Vick说。“哦,当然,这与实施有很大关系,所以我们正在从深奥的东西转向现实世界,现实世界的实施很重要。这不是我是否可以设计这个东西,或者我是否可以获得最佳的 TOPS/w。我可以在实际设计中实际实现它吗?我能处理嘈杂的电源吗?我能否处理不稳定的电网?所需的裕度和过度设计量表明我再也无法承受,如今电网本身受到与逻辑遇到相同的设计约束。它正行驶在那条崎岖的边缘,有时它会出现偏移,会出现挣扎,我必须从硬件和软件的角度来考虑这个问题,而不是假设有无限的清洁能源。”

· END ·



欢迎将我们设为“星标”,这样才能第一时间收到推送消息。
扫码关注:汽车开发圈,回复“驾驶

领取自动驾驶、辅助驾驶等方面免费资料包!



扫码添加小助手回复“进群”

和电子工程师们面对面交流经验


电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 211浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 172浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 145浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 100浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 75浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 234浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 161浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 86浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 82浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 113浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 127浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 122浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦