ISSCC2021:Xbox X SoC 功率、散热和良率的权衡设计

EETOP 2021-02-22 00:00

上周在ISSCC(国际固态电路会议)上,微软发表了题为《XboxSeries X SoC: 下一代游戏机",由硬件工程师PaulPaternoster主讲。 30分钟的演讲涵盖了很多关于微软最新的游戏机处理器的内容,其中大部分是重复了去年8月在Hot Chips上看到的内容,然而这次演讲中有一个新的元素,谈到了游戏机设计团队如何平衡声学、功耗、热性能和处理器的良率,讨论了设计中的热点源自哪里,以及最终硅片的性能/功耗目标在哪里得到了优化。

XboxSeries X SoC概述:Scarlett项目

首先,我们先来了解一下XboxSeries X内部的处理器,即"Project Scarlett"。Scarlett(斯嘉丽)是基于台积电N7工艺节点打造的单片系统级芯片。该设计拥有153亿个晶体管,裸片尺寸为15.831×22.765m=360.4m

芯片内部有8个Zen 2移动核心,配置成两组,每组四个内核,每个核心共享4MB的L3缓存,类似于AMD的移动Renoir/Lucienne处理器。这些核心通过可扩展数据结构连接到一个定制的基于RDNA 的GPU,能够达到 12 TFLOPS的峰值性能,实现可变速率着色、光线追踪和其他新的图形功能。这个GPU是作为56个计算单元设计的,然而在最终产品中只使用了52个计算单元(后面会有更多介绍)。


内存系统采用20×16通道的16GB GDDR6。其中10GB为性能较高的内存,可以实现560GB/s的内存带宽,用于游戏,而另外6GB为性能较低的内存,为336GB/s的内存带宽,用于游戏或内存不是限制因素的情况。这样也可以实现更低的功耗状态。

视频编解码的支持,可以实现4K/8K AVC编解码、HEVC/VP9HDR解码、AVC/HDR编码四个显示平面。三个音频协处理器可以实现MOVAD(Opus/Vorbis)、CFPU2(频域处理)和MEC(多通道回声消除)的Logan IP的计算卸载,以消除麦克风的背景噪声。

硬件安全处理器(HSP)可以实现信任root以及所有加密功能,例如安全的硬件加密密钥。HSP也是微软Pluton架构的一部分,我们将在未来几年内看到使用Windows的现代CPU上出现这种架构。媒体流处理器(MSP)通过AES实现外部媒体设备的快速加密/解密和散列,足以满足平台上支持PCIe4.0的外部存储。微软表示,与上一代7200RPM硬盘相比,其新的XboxVelocity架构(使用NANDover NVMe加上MSP)可以实现更快的加载时间,同时为尚未以压缩格式发布的游戏节省30-35%的空间。 

与上一代产品相比,微软正在推广其的新处理器具有一下特征:

  • 3倍的CPU性能

  • 2倍的GPU性能

  • 1.7倍的内存带宽

  • 2倍的IO带宽

  • 0.9倍的物理音量

  • 2.4倍的每瓦性能

  • 相同的声学性能

  • 媒体播放的合规性更严

微软表示,与2013年的芯片相比,这款芯片的功耗增加了15%。

我们认为XboxSeries X的上限功耗是~270。这个功率数字必须覆盖系统内部的所有东西,所以ScarlettSoC很可能是其中的很大一部分,但不是全部。微软从来没有给出过一个官方数字,表示如果不同时描述芯片所处的技术环境,他们不会提供这个数字(来自HotChips问答)。需要注意的是,20通道的GDDR6也会消耗一部分功耗,所以即使系统的功耗是270W,如果我们把系统的大部分剥离出来,Scarlett芯片加上内存可能就是其中的225W。16 Gbps的GDDR6通常为每个芯片2.5 W,而这里采用了10个,这说明内存可能是25 W,这样SoC就有200 W分给CPU、GPU和互连。

不过说了这么多,在我们对XboxSeries X的评测中,我们从来没有看到任何接近这么高的功率。最费力的游戏(《战争机器5》)在整个系统中只达到202 W。

平衡声学、功耗和热学

与任何独立的系统(如游戏机)一样,在功耗、热学和声学之间找到合适的平衡是一个多维方程,尤其是当更新的系统要获得更大的功率,而目标是一个更轻薄的系统。这次演讲的主持人保罗·帕特诺斯特(PaulPaternoster)解释说,XboxSeries X的目标是提供具有比上一代产品高15%的TDP,,但体积却比上一代小20%的产品,同时拥有相同的音响性能。

最终的结果是体积缩小了接近10%,但微软启用了三通道并联气流设计,结合主SoC和内存的汽化室冷却器,中央机箱气流挡板,用于冷却电压调节器和其他南桥相关IO,以及定制的130mm轴流风扇和三相无刷直流电机,实现了高性能但低声浪和低维护的特点。


右侧是SoC的主要铝制散热器,然后在中间是中央机箱的气流挡板,在左侧是系统的其余部分,包括带有IO的第二块PCB。微软将系统分为两块PCB,一块用于ScarlettSoC,另一块用于所有与IO相关的连接,以分配热量并减小占用空间。这样的设计唯一需要考虑的问题是,电路板之间的连接性通常会产生较小的功耗,并且交叉板连接器具有足够的带宽。 

通过电源管理提高效率

设计新SoC的目标之一就是试图在尽可能多的不同区域节省功耗。当您收集其中的一些东西时,即使即使是小的1%的节省,累加起来也不容小视。我们已经在AMD处理器上看到了其中的一些功能,而斯嘉丽是当时使用该功能的第一个基于Zen2的SoC的产品。保罗·帕特诺斯特(PaulPaternoster)将节电分为三个关键领域:电源监控和调节(〜10%),过程优化(〜10-15%)和电源状态管理(可操作)。

电源监控与调节

在此标题下,Microsoft列出了我们以前从AMD所见过的许多功能,例如数字低压差稳压器,动态电压频率缩放和直流启动时间校准。

对于电源监控器,自第一代以来,我们就已经在AMDZen内核上实现了这一功能,它提供了有关内核内部关键路径的更多信息,从而可以针对给定的工作负载优化电压保护带。可以与DLDO稳压器一起使用,该稳压器提供基于每个内核的电压控制,而不是基于每个复杂的电压。就上下文而言,Scarlett使用的基于Zen 2的设计类似于AMD的移动平台,类似于Renoir,但是AMD直到第二代Zen 2移动产品Lucienne才实现DLDO。DLDO已经在台式机AMD硬件上使用了至少两代。

细粒度动态电压频率缩放(DVFS)也是我们在台式机和移动AMD Ryzen处理器上看到的另一个元素,不仅可以更好地控制CPU频率,而且可以将电源状态的电压降低到更接近实际硅片的水平。最低要求。这可以通过降低电压来优化每瓦性能,并与DLDO结合使用,也可以基于每个内核来完成。DVFS与AMD的CPPC2电源状态控制配合使用效果最佳,但是稍后我们将介绍游戏机是否依赖固定电源状态。

芯片低压差稳压器(CLDO)在AMD的Zen处理器中并未提及,但微软在这里做了重点介绍了,以降低L2/ L3缓存的功耗。随着缓存的增大,这显然变得越来越重要-与移动处理器和Scarlett相比, AMD的桌面处理器的缓存是移动处理器的4倍,与Scarlett相比也是如此。然而,这里似乎有足够的差异,所以微软把它包括在演讲中,尽管当他们说"每个芯片的电压"时,我确实想知道他们是否意味着每个四核复合体或每个核心,而不是一个全芯片的值。

这一部分的最后一个是DC-BTC,或者说是电流和电压容忍度的启动时间校准。这是在AMD的Bulldozer时代开发出来的,目的是为了在芯片和元器件老化的时候能够有更严格的裕度。随着元器件的老化,由于电迁移和热效应,通常需要更高的电压才能达到同样的效果。然而,如果没有老化控制机制,SoC就必须从一开始就人为地提高电压,称为"老化裕度",再加上高电压调节容差。这样做的缺点是,在较高的电压下,电迁移会发生得更严重,所以通过做某种形式的老化校准,芯片的裕度可以降低,处于较低的功率下,并最终因为较低的电压而延长寿命。这也有一个连锁效应,允许更广泛的电压范围,以接受足够的老化检测,并降低所需的老化余量的最终产量。

工艺优化

除了设计方面的实现之外,还有在制造过程级别进行的优化。正如我们大多数读者所知道的,制造处理器具有1000种不同的组合方法,寻找正确的组合以使芯片具有最佳性能,最佳频率,最佳功率或最佳效率,都需要在搜索空间中找到全局或局部最小值。 

对于ProjectScarlett SoC,微软解释说,他们在制造层面实施了两种方法,都是与AMD和制造合作伙伴台积电合作,以获得更好的产品。工艺再中心化首先是定义所需的电压和电流最小值,与晶体管的频率和漏电有关。

第二部分是在该定义的搜索空间中找到一个局部的最低电压,即所谓的Vmin搜索。 

这两个要素加起来占了新ScarlettSoC所做的功耗节省的10-15%,而这些都是基于制造的优化。这些优化可能能够找到最佳结果的深度往往受限于上市时间(在必须决定一组特定值之前,你能分析多少个搜索点)和愿意投入多少资金。

功率状态

对于任何给定的系统来说,启用功率状态为系统提供了一个关于功率、热学、声学以及手头任务所需性能的窗口。例如,告诉系统在其峰值功率状态下运行,将尽可能快地完成任何工作负载,但会降低功耗,散热和声学性能。

现代台式电脑经常会在运行中改变电源状态,而AMD的CPPC2技术允许这些电源状态在需要性能时成为连续不断的变化。另一方面,游戏机则因为系统与游戏开发者合作的性质,无法使用这个功能。 

微软在系统中定义了许多功率状态,以便为游戏、视频播放、下载游戏更新和其他功能提供合适的性能。系统的每个部分都可以有自己的一套电源状态。

  • CPU具有8个电源状态

  • GPU具有5个电源状态

  • 内部结构具有4个电源状态

  • GDDR具有3个电源状态

Microsoft使用这些状态段来创建特定的游戏机操作模式,从而使开发人员能够针对给定的功能和性能进行工作和优化,而不是针对现代PC的移动目标。在这些主机游戏上,以1920x1080分辨率获得最低30 FPS本质上是最低标准,并且如果开发人员知道系统将具有保证的性能水平,,他们就可以按照这些性能数字进行调整。

这是Microsoft告诉我们的操作模式-可能还有更多。在玩游戏时,每种功率模式都设置为最大,因此系统可以完全访问所有必要的性能。在视频播放中,基于内容的格式,游戏机将处于多种不同的操作模式,然后有一些低功耗模式用于后台和已连接的待机模式。除了这些以外,可能还有其他电源模式,例如2D或独立游戏,或者系统检测到不需要某些性能级别。 

解决热密度和良率

热密度

保罗·帕特诺斯特(PaulPaternoster)进行的ISSCC演讲的内容之一是,与前几代游戏机相比,这一代产品在热密度测量方面有何不同。如Paul所言,过去他曾使用过几代Xbox处理器,他解释说,GPU通常是热密度的限制因素,它限制了平台的声学特性。GPU通常对性能有很高的要求,并且历史上一直是热点所在。保罗指出,对于XboxSeries X SoC,情况有所不同。

对于Scarlett来说,其实CPU才是成为限制因素的关键。使用AMD的高性能x86 Zen 2核心,而不是上一代的低功耗Jaguar核心,再加上游戏工作负载在此后7年的发展,意味着当游戏工作负载开始提升时,CPU上的双256位浮点单元就是最高热密度点发生的地方。

在显示的这张PPT中,虽然没有说明这里是什么样的工作负载,是活动的游戏还是电源病毒,但微软在CPU端显示的热点是87.4ºC,而GPU的热点只有80.9ºC。现在这也就涉及到硬件的频率选择和设计点,以及在CPU功率、GPU功率和整体散热特性和声学之间找到合适的平衡点。

 

微软表示,因为这种差异,现在CPU是散热的热点,所以现在的声学是围绕这个点来进行的。作为微软的测试结果,该公司表示该公司表示CPU对设计的声学影响不成比例:在声学预算上,CPU所消耗的每增加一瓦特的成本是GPU的五倍。

我没有考虑过这是一个有趣的观点,但这意味着为了达到预期的目标,Microsoft花了一些时间来优化合适的CPU频率,从而在性能和散热之间进行权衡。这也是为什么在启用同时多线程时系统以3.6GHz运行,而在同时禁用多线程时可以达到3.8GHz的原因。

解决产量:GPU的影响

游戏机处理器不同于桌面和移动处理器,游戏机SoC不能按照芯片测试性能来标定对应的型号。而对于任何给定的硅产品的制造,都会存在晶体管性能的变化以及设计中的缺陷。制造工艺的目标自然是提供两者的最佳状态!对于一个给定的设计,个人电脑和笔记本电脑中的消费类处理器将被放入不同的"容器"中,并根据晶体管性能分配不同的名称和数值。相比之下,游戏机处理器必须具有相同的性能,以满足最低的性能要求,而不存在分层。游戏机制造商必须使用一个设计和一个性能点,使生产线上尽可能多的处理器达到该点。这是任何游戏机处理器的成品率公式的一部分。

上面我们已经介绍了Microsoft在本文中做出的许多设计选择,其中一些因素会影响性能分层,并确保设计能够获得最高的良率。我们尚未具体涉及的另一个因素是GPU。ScarlettSoC物理上具有56个图形计算单元,但在零售产品中仅使用52个。在ISSCC上的演讲花了一些时间探讨了这两种选择的优点,但最终解释了为什么Microsoft选择52。

Microsoft在这里谈论工作组处理器(WGP),其中包含两个计算单元和一些共享资源。这意味着全芯片设计具有28个WGP。

PaulPaternoster解释说,从下线的芯片来看,相当多的芯片可以在启用全部28个WGP的情况下运行。显卡的目标是提供12TFLOPs的性能,因此通过一些简单的数学计算,微软可以采用以下任何一种方式来达到这个数字。

  • 在1675 MHz下启用了28个WGP

  • 在1825 MHz下启用了26个WGP

这两个配置均启用12个TFLOP。由于28 WGP设计的频率较低,因此还可以实现较低的电压,如果使用所有28WGP,则总功耗可节省20%。

当然,20%的功耗节省是相当可观的,因为它可以实现更好的每瓦性能,或者实现更高的性能。但问题是,在28颗WGP全部以这个频率运行的情况下,生产时没有足够的处理器下线。由于晶体管性能和缺陷,处理器的可变性意味着28个WGP版本在经济上没有意义。

微软使用的是台积电最好的仅有DUV的7nm(N7)工艺节点,据称其缺陷率为每平方厘米0.09个缺陷。

  • 300毫米晶圆的面积为706.86 c

  • 每厘米2 0.09个缺陷的缺陷率意味着每个晶圆?64个缺陷

  • 斯嘉丽是360.4平方毫米(15.831毫米x 22.765毫米)

  • 请注意,SoC是矩形,晶圆是圆形,

  • 晶圆芯片计算器显示,这种SoC尺寸的100%合格率将使每个晶圆147个芯片

  • Microsoft设置频率/功率,以便如果所有管芯都合格,则可以使用所有管芯

  • 缺陷率为0.09 / cm 2时,每个晶片有107个良好的管芯

  • 这意味着73%的良率107/147

假设其中一个GPU计算单元或WGP发生缺陷,这个几率非常大,因为GPU是处理器中最大的部分,通过吸收这个缺陷,禁用这个WGP,这个SoC就可以用在游戏机上,有效良品率就会更高。

当缺陷率为0.09时,这是很好很低的缺陷率,同一芯片上出现两个缺陷的几率非常小。即便如此,只要选择只启用26个WGPs的设计,比全部28个WGPs少两个,几乎所有从生产线上下来的管芯都可以使用--有效提高了良品率,使每个处理器的平均成本降低了三分之一。

原文:

https://www.anandtech.com/show/16489/xbox-series-x-soc-power-thermal-and-yield-tradeoffs

推荐:

 ISSCC 2021 all session PPT and papers!下载


EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  • 技术原理:非扫描式全局像的革新Flash激光雷达是一种纯固态激光雷达技术,其核心原理是通过面阵激光瞬时覆盖探测区域,配合高灵敏度传感器实现全局三维成像。其工作流程可分解为以下关键环节:1. 激光发射:采用二维点阵光源(如VCSEL垂直腔面发射激光器),通过光扩散器在单次脉冲中发射覆盖整个视场的面阵激光,视场角通常可达120°×75°,部分激光雷达产品可以做到120°×90°的超大视场角。不同于传统机械扫描或MEMS微振镜方案,Flash方案无需任何移动部件,直接通过电信号控制激光发射模式。2.
    robolab 2025-04-10 15:30 239浏览
  • 背景近年来,随着国家对资源、能源有效利用率的要求越来越高,对环境保护和水处理的要求也越来越严格,因此有大量的固液分离问题需要解决。真空过滤器是是由负压形成真空过滤的固液分离机械。用过滤介质把容器分为上、下两层,利用负压,悬浮液加入上腔,在压力作用下通过过滤介质进入下腔成为滤液,悬浮液中的固体颗粒吸附在过滤介质表面形成滤饼,滤液穿过过滤介质经中心轴内部排出,达到固液分离的目的。目前市面上的过滤器多分为间歇操作和连续操作两种。间歇操作的真空过滤机可过滤各种浓度的悬浮液,连续操作的真空过滤机适于过滤含
    宏集科技 2025-04-10 13:45 164浏览
  • 文/Leon编辑/侯煜‍关税大战一触即发,当地时间4月9日起,美国开始对中国进口商品征收总计104%的关税。对此,中国外交部回应道:中方绝不接受美方极限施压霸道霸凌,将继续采取坚决有力措施,维护自身正当权益。同时,中国对原产于美国的进口商品加征关税税率,由34%提高至84%。随后,美国总统特朗普在社交媒体宣布,对中国关税立刻提高至125%,并暂缓其他75个国家对等关税90天,在此期间适用于10%的税率。特朗普政府挑起关税大战的目的,实际上是寻求制造业回流至美国。据悉,特朗普政府此次宣布对全球18
    华尔街科技眼 2025-04-10 16:39 192浏览
  •     电气间隙是指两个带电体在空气中的最短距离。导体、电介质(空气),最短距离,就是这个术语的要素了。        (图源:TI)    电气间隙是由安装类别决定的,或者更本质地说,是瞬态过电压的最大值来决定的,而不是工作电压的高低。安装类别见协议标准第007篇,瞬态过电压另见协议标准第009篇。    实际设计中怎么确定电气间隙?可以按照CAT,工作电压和绝缘等级来定。 
    电子知识打边炉 2025-04-13 18:01 54浏览
  •   天空卫星健康状况监测维护管理系统:全方位解析  在航天技术迅猛发展的当下,卫星在轨运行的安全与可靠至关重要。整合多种技术,实现对卫星的实时监测、故障诊断、健康评估以及维护决策,有力保障卫星长期稳定运转。  应用案例       系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。  一、系统架构与功能模块  数据采集层  数据处理层  智能分析层  决策支持层  二、关键技术  故障诊断技术  
    华盛恒辉l58ll334744 2025-04-10 15:46 182浏览
  • 相信很多小伙伴都用过下面这个MOS管开关电路,但是有多少小伙伴了解在MOS管开关过程中,输入电压、输出电压和MOS管上的电流都是怎么变化的?特别是输出端有大负载电容时,最大浪涌电流能到多少呢?今天小编专门写一篇文章,通过理论结合仿真的方式给大家分析下~首先建立一个电路图:假定电源电压V5=12V,内阻Rs=10毫欧;MOS管的导通与关闭由$V_6$控制;负载设定为100mF电容+$12\Omega$电阻。上升阶段当控制信号输出高电平时,$V_6$电压会逐渐上升,当电压上升到三极管$Q_3$的门槛
    龙猫讲电子 2025-04-11 23:01 54浏览
  • 华为Freebuds pro 耳机拆解 2020年双十一花了1000大洋买了华为的Freebuds pro,这个耳机的降噪效果真是杠杠的。完全听不到外边的噪音。几年后当我再次使用这款耳机的时候。发现左耳没带多久就自动断连了。后来查了小红书说耳机的电池没电了导致,需要重新配一只,华为售后不支持维修支持更换。而且配件的价格要好几百。真是欲哭无泪,还没用多久呢。后来百度了都说这个不是很好拆(没有好工具的前提下)。 虽然网上已经有很多拆解的视频和介绍了,今天我还是要拆解看看里面是怎么样的构造(暴力)。拿
    zhusx123 2025-04-12 23:20 42浏览
  • MASSAGE GUN 筋膜枪拆解 今天给车子做保养,厂家送了一个筋膜枪。产品拿在手里还是挺有分量的。标价108元。通过海鲜市场一搜索,几十元不等,而且还是爆款。不多说,我们就来看看里面用了什么料,到底值几个钱。外观篇 首先给它来个开箱照,从外观看,确实还是很精致,一点都不逊色品牌产品。 从箱中取出筋膜枪,沉甸甸的。附上产品的各方位视角 产品的全家福 我装上球头,使用了一番,还真不赖,有不同的敲击速度和根据力度调节不同的档位。拆解篇 拿出我的螺丝套装,对产品开始进行拆解,首先
    zhusx123 2025-04-13 16:52 51浏览
  •   海上电磁干扰训练系统:全方位解析      海上电磁干扰训练系统,作为模拟复杂海上电磁环境、锻炼人员应对电磁干扰能力的关键技术装备,在军事、科研以及民用等诸多领域广泛应用。接下来从系统构成、功能特点、技术原理及应用场景等方面展开详细解析。   应用案例   系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。   一、系统构成   核心组件   电磁信号模拟设备:负责生成各类复杂的电磁信号,模拟海上多样
    华盛恒辉l58ll334744 2025-04-10 16:45 281浏览
  • 行业变局:从机械仪表到智能交互终端的跃迁全球两轮电动车市场正经历从“功能机”向“智能机”的转型浪潮。数据显示,2024年智能电动车仪表盘渗透率已突破42%,而传统LED仪表因交互单一、扩展性差等问题,难以满足以下核心需求:适老化需求:35%中老年用户反映仪表信息辨识困难智能化缺口:78%用户期待仪表盘支持手机互联与语音交互成本敏感度:厂商需在15元以内BOM成本实现功能升级在此背景下,集成语音播报与蓝牙互联的WT2605C-32N芯片方案,以“极简设计+智能交互”重构仪表盘技术生态链。技术破局:
    广州唯创电子 2025-04-11 08:59 233浏览
  • 什么是车用高效能运算(Automotive HPC)?高温条件为何是潜在威胁?作为电动车内的关键核心组件,由于Automotive HPC(CPU)具备高频高效能运算电子组件、高速传输接口以及复杂运算处理、资源分配等诸多特性,再加上各种车辆的复杂应用情境等等条件,不难发见Automotive HPC对整个平台讯号传输实时处理、系统稳定度、耐久度、兼容性与安全性将造成多大的考验。而在各种汽车使用者情境之中,「高温条件」就是你我在日常生活中必然会面临到的一种潜在威胁。不论是长时间将车辆停放在室外的高
    百佳泰测试实验室 2025-04-10 15:09 162浏览
  • 迈向可持续未来的征程中,可再生能源已成为全球发展的基石。在可再生能源中,太阳能以其可及性和潜力脱颖而出。光伏(PV)逆变器是太阳能系统的核心,它严重依赖先进技术将太阳能电池板的直流电转换为可用的交流电。隔离栅极驱动器就是这样一种技术,它在提高这些系统的效率、安全性和可靠性方面发挥着至关重要的作用。了解隔离栅极驱动器隔离栅极驱动器是一种专用电路,可提供驱动功率晶体管(例如MOSFET或IGBT)所需的控制信号,同时确保控制侧和电源侧之间的电气隔离。这种隔离对于维护安全性、减少电磁干扰和防止高压环境
    腾恩科技-彭工 2025-04-11 16:16 59浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦