人工智能处理器需要大量电力,但较低的能效将导致整个配电网络(PDN)的损耗增加。如何在保持效率的同时实现高质量的算法执行?Vicor 公司副总裁Robert Gendron在接受 EEWeb 采访时指出,由于人工智能、机器学习和深度学习的加入,数据中心的服务器机架功率已跃升了 200% 以上,达到20 kW的水平。这促使 Vicor重新评估其PDN能力,改用48V 解决方案。但尽管重新设计解决了大电流 PDN 问题,却也给电源转换带来了新的挑战。
图1: CPU/FPGA 峰值电流的要求在逐步提高(资料来源:Vicor)
PDN需求飙升
供电和电源效率已成为大规模计算系统中最大的问题(如图1)。随着处理复杂 AI 功能的 ASIC 和 GPU 的出现,业界已经见证了处理器功耗的急剧攀升。在大规模学习和推理应用部署中,AI能力不断增长,服务器机架电源需求也成比例地增长。在大多数情况下,由于新型CPU消耗的电流持续增加,供电成了计算性能的限制因素。最佳电力传输方案不仅对电力分配有一定要求,还对效率、尺寸、成本和散热性能有严格要求。
为了支持大量数据计算,传统PDN 需要承担巨大的功率需求负担,这对散热管理也造成压力。延长PDN系统缆线以降低电阻或提高工作电压以降低电流是可用的两种解决方法。为满足不断增长的功率需求,现代设计常采用后一种方法来更有效地满足数据中心的严格要求。
“当前的电力需求远远超过传统电力输送网络的能力,”Gendron 说。“改用48V架构并采用更创新的供电方法,这是提供高性能电源以满足惊人AI/HPC需求的唯一途径。”
2015年,当处理器功耗开始急剧攀升时,主要由云计算、服务器和 CPU 公司成员构成的开放计算项目 (OCP) 联盟也不断改进其12V机架设计。具体而言,他们从电缆切换至母线架构,并在机架内部署更多12V单相交流转换器,以最大限度地缩短PDN与刀片服务器之间的距离并减小电阻。其中最主要的变化是,由于功耗增加,单相交流电从三相电源的各个相位传送到机架。之后,在500A至1000A处理器的数据中心中引入AI,这一举措促使一些公司转用48V配电架构。这将12 kW机架的大电流PDN问题降低到了250 A,但也给整个系统的电源转换带来了新的挑战。由于为刀片服务器供电的PDN转换到了48 V,因此刀片服务器端也需要进行电源转换。但无论如何,从12V配电架构切换到48V可将输入电流要求降低4 倍,将损耗降低16 倍。
48 V架构应用
48 V电源用于可充电备用电池系统,为电信设备供电。传统上,这些系统使用的通用架构被称为中间总线架构,它由一个隔离的非稳压总线转换器组成,用于将 48 V电压转换为 12 V,然后再馈送到一组多相降压稳压器,以处理到12 V的转换以及负载点 (PoL)调整。随着AI 处理器和 CPU 电流的增加,由于稳压器和 PoL之间的PDN电阻,PoL供电解决方案的密度成为 AI 应用中最关键的元素。PDN损耗是计算 DC/DC 稳压器设计效率和性能的主要因素。
为了减少损耗,Vicor 建议使用 48V 预稳压模块 (PRM)以及固定比率(1/K 因子)的变压模块 (VTM)。 这种专有架构可以优化每一级的性能。
PRM采用零电压开关拓扑,而 VTM 采用专有的高频正弦振幅转换器 (SAC) 拓扑。VTM可以看作是一个DC/DC 变压器,电压比为1/K,电流比为K。VTM 提供高功率密度,部署位置可以尽可能靠近处理器。
VTM 采用 SAC 拓扑,与多相开关及其相关电感器相比,辐射低且带宽窄。而且,由于单个VTM 取代了六个多相开关级,它可以提供比多相设计更高的功率密度。VTM占用空间小,完全满足支持四通道存储器的高级处理器布局限制,不会占用存储子系统的布局区域。
图2: 横向供电(来源:Vicor)
大电流传输通过模块化电流倍增器 (MCM) 模块提供,这些模块可以靠近处理器部署在主板上或处理器基板上。将 MCM 布置在基板上,不仅可最大限度降低PDN 损耗,而且可以减少电源所需的处理器基板 BGA 引脚数量。LPD可以支持OCP加速器模块卡和定制AI加速器卡的供电需求和独特尺寸。
图3: 垂直供电(来源:Vicor)
垂直供电 (VPD) 进一步消除了配电损耗和 VR PCB 板面积消耗。它在设计上与 Vicor LPD 横向供电方案相似,只是将旁路电容集成到了电流倍增器或变换电流倍增器 (GCM) 模块中。
根据处理器电流的不同,工程师可以选择横向供电 (LPD) 或者垂直供电(VPD)。若采用前者,电流倍增器部署在同一基板的AI 处理器旁边,或直接部署在几毫米之内的主板上,这样可以使PDN 电阻降低到大约50 µΩ。为了获得更高的性能,VPD则将电流倍增器直接移到处理器下方,同时还集成高频接地电容器。这种类型的电流倍增器称为变换电流倍增器(GCM)。VPD可以将 PDN电阻降至 5至7 µΩ,让AI 处理器充分发挥效能。
图 4:该AI解决方案重点介绍了 Vicor 48V 直接负载 VR 解决方案,它支持高达 650A 的连续电流和超过 1,000A 的峰值电流传输。(来源:Vicor)
最大化AI处理器性能
图 4显示了一个典型的Vicor高级AI处理器加速模块VR 解决方案。Vicor VR 由三个动力模块组成,包括一个模块化电流驱动器 (MCD) 和两个 MCM,可以提供 48 VIN 至 0.8 VOUT VR ,并提供高达 650A 的连续电流和超过 1,000A 的峰值电流。这种供电水平就如同飞机的喷气燃料,可确保 AI 处理器以最佳的时钟频率运行,并最大限度提高性能。
Gendron 说:“如果这些先进的AI 应用没有采用我们的技术,多相VR器件的数量将超过电路板尺寸,并且无法保持相同的封装。此外,还可能因为噪声过高而无法保持信号的完整性。”
采用 Vicor的NBM2317,可兼容传统的12 V服务器机架配电,同时为Vicor VR提供48 V电压。该12V 至48V转换器还可以“反”向运行,实现48V到12V的转换。
传统电源架构已无法应对现今高能耗的AI 处理器,也无法将之应用于云计算中。Vicor的电源方案支持 48V 配电,并利用VR来满足高级AI 处理的需求。与 CPU使用的传统多相设计不同,Vicor 解决方案专为在云服务器中快速迁移的新型处理器而开发。
采用新方法为AI/HPC 供电势在必行。随着业界领先的公司在电源方面不断突破,从云服务器机架分配 12 V电源已不再可行。为当今的ASIC和GPU供电不是通过简单更换部件增加功率就可以实现的。从高压电源开始,结合创新的架构与拓扑,并使用高效的高密度电源模块,这才是最有效的解决方案。
(参考原文:Next-Gen AI Processors Need 48 V)
责编:Amy Guan
本文为《电子工程专辑》2021年8月刊杂志文 章,版权所有,禁止转载。点击申请免费杂志订阅