首先,我们先来了解一下XboxSeries X内部的处理器,即"Project Scarlett"。Scarlett(斯嘉丽)是基于台积电N7工艺节点打造的单片系统级芯片。该设计拥有153亿个晶体管,裸片尺寸为15.831×22.765m㎡=360.4m㎡。
芯片内部有8个Zen 2移动核心,配置成两组,每组四个内核,每个核心共享4MB的L3缓存,类似于AMD的移动Renoir/Lucienne处理器。这些核心通过可扩展数据结构连接到一个定制的基于RDNA 的GPU,能够达到 12 TFLOPS的峰值性能,实现可变速率着色、光线追踪和其他新的图形功能。这个GPU是作为56个计算单元设计的,然而在最终产品中只使用了52个计算单元(后面会有更多介绍)。
内存系统采用20×16通道的16GB GDDR6。其中10GB为性能较高的内存,可以实现560GB/s的内存带宽,用于游戏,而另外6GB为性能较低的内存,为336GB/s的内存带宽,用于游戏或内存不是限制因素的情况。这样也可以实现更低的功耗状态。
视频编解码的支持,可以实现4K/8K AVC编解码、HEVC/VP9HDR解码、AVC/HDR编码四个显示平面。三个音频协处理器可以实现MOVAD(Opus/Vorbis)、CFPU2(频域处理)和MEC(多通道回声消除)的Logan IP的计算卸载,以消除麦克风的背景噪声。
硬件安全处理器(HSP)可以实现信任root以及所有加密功能,例如安全的硬件加密密钥。HSP也是微软Pluton架构的一部分,我们将在未来几年内看到使用Windows的现代CPU上出现这种架构。媒体流处理器(MSP)通过AES实现外部媒体设备的快速加密/解密和散列,足以满足平台上支持PCIe4.0的外部存储。微软表示,与上一代7200RPM硬盘相比,其新的XboxVelocity架构(使用NANDover NVMe加上MSP)可以实现更快的加载时间,同时为尚未以压缩格式发布的游戏节省30-35%的空间。
与上一代产品相比,微软正在推广其的新处理器具有一下特征:
3倍的CPU性能
2倍的GPU性能
1.7倍的内存带宽
2倍的IO带宽
0.9倍的物理音量
2.4倍的每瓦性能
相同的声学性能
微软表示,与2013年的芯片相比,这款芯片的功耗增加了15%。
我们认为XboxSeries X的上限功耗是~270。这个功率数字必须覆盖系统内部的所有东西,所以ScarlettSoC很可能是其中的很大一部分,但不是全部。微软从来没有给出过一个官方数字,表示如果不同时描述芯片所处的技术环境,他们不会提供这个数字(来自HotChips问答)。需要注意的是,20通道的GDDR6也会消耗一部分功耗,所以即使系统的功耗是270W,如果我们把系统的大部分剥离出来,Scarlett芯片加上内存可能就是其中的225W。16 Gbps的GDDR6通常为每个芯片2.5 W,而这里采用了10个,这说明内存可能是25 W,这样SoC就有200 W分给CPU、GPU和互连。
不过说了这么多,在我们对XboxSeries X的评测中,我们从来没有看到任何接近这么高的功率。最费力的游戏(《战争机器5》)在整个系统中只达到202 W。
与任何独立的系统(如游戏机)一样,在功耗、热学和声学之间找到合适的平衡是一个多维方程,尤其是当更新的系统要获得更大的功率,而目标是一个更轻薄的系统。这次演讲的主持人保罗·帕特诺斯特(PaulPaternoster)解释说,XboxSeries X的目标是提供具有比上一代产品高15%的TDP,,但体积却比上一代小20%的产品,同时拥有相同的音响性能。
最终的结果是体积缩小了接近10%,但微软启用了三通道并联气流设计,结合主SoC和内存的汽化室冷却器,中央机箱气流挡板,用于冷却电压调节器和其他南桥相关IO,以及定制的130mm轴流风扇和三相无刷直流电机,实现了高性能但低声浪和低维护的特点。
右侧是SoC的主要铝制散热器,然后在中间是中央机箱的气流挡板,在左侧是系统的其余部分,包括带有IO的第二块PCB。微软将系统分为两块PCB,一块用于ScarlettSoC,另一块用于所有与IO相关的连接,以分配热量并减小占用空间。这样的设计唯一需要考虑的问题是,电路板之间的连接性通常会产生较小的功耗,并且交叉板连接器具有足够的带宽。
设计新SoC的目标之一就是试图在尽可能多的不同区域节省功耗。当您收集其中的一些东西时,即使即使是小的1%的节省,累加起来也不容小视。我们已经在AMD处理器上看到了其中的一些功能,而斯嘉丽是当时使用该功能的第一个基于Zen2的SoC的产品。保罗·帕特诺斯特(PaulPaternoster)将节电分为三个关键领域:电源监控和调节(〜10%),过程优化(〜10-15%)和电源状态管理(可操作)。
在此标题下,Microsoft列出了我们以前从AMD所见过的许多功能,例如数字低压差稳压器,动态电压频率缩放和直流启动时间校准。
对于电源监控器,自第一代以来,我们就已经在AMDZen内核上实现了这一功能,它提供了有关内核内部关键路径的更多信息,从而可以针对给定的工作负载优化电压保护带。可以与DLDO稳压器一起使用,该稳压器提供基于每个内核的电压控制,而不是基于每个复杂的电压。就上下文而言,Scarlett使用的基于Zen 2的设计类似于AMD的移动平台,类似于Renoir,但是AMD直到第二代Zen 2移动产品Lucienne才实现DLDO。DLDO已经在台式机AMD硬件上使用了至少两代。
细粒度动态电压频率缩放(DVFS)也是我们在台式机和移动AMD Ryzen处理器上看到的另一个元素,不仅可以更好地控制CPU频率,而且可以将电源状态的电压降低到更接近实际硅片的水平。最低要求。这可以通过降低电压来优化每瓦性能,并与DLDO结合使用,也可以基于每个内核来完成。DVFS与AMD的CPPC2电源状态控制配合使用效果最佳,但是稍后我们将介绍游戏机是否依赖固定电源状态。
芯片低压差稳压器(CLDO)在AMD的Zen处理器中并未提及,但微软在这里做了重点介绍了,以降低L2/ L3缓存的功耗。随着缓存的增大,这显然变得越来越重要-与移动处理器和Scarlett相比, AMD的桌面处理器的缓存是移动处理器的4倍,与Scarlett相比也是如此。然而,这里似乎有足够的差异,所以微软把它包括在演讲中,尽管当他们说"每个芯片的电压"时,我确实想知道他们是否意味着每个四核复合体或每个核心,而不是一个全芯片的值。
这一部分的最后一个是DC-BTC,或者说是电流和电压容忍度的启动时间校准。这是在AMD的Bulldozer时代开发出来的,目的是为了在芯片和元器件老化的时候能够有更严格的裕度。随着元器件的老化,由于电迁移和热效应,通常需要更高的电压才能达到同样的效果。然而,如果没有老化控制机制,SoC就必须从一开始就人为地提高电压,称为"老化裕度",再加上高电压调节容差。这样做的缺点是,在较高的电压下,电迁移会发生得更严重,所以通过做某种形式的老化校准,芯片的裕度可以降低,处于较低的功率下,并最终因为较低的电压而延长寿命。这也有一个连锁效应,允许更广泛的电压范围,以接受足够的老化检测,并降低所需的老化余量的最终产量。
除了设计方面的实现之外,还有在制造过程级别进行的优化。正如我们大多数读者所知道的,制造处理器具有1000种不同的组合方法,寻找正确的组合以使芯片具有最佳性能,最佳频率,最佳功率或最佳效率,都需要在搜索空间中找到全局或局部最小值。
对于ProjectScarlett SoC,微软解释说,他们在制造层面实施了两种方法,都是与AMD和制造合作伙伴台积电合作,以获得更好的产品。工艺再中心化首先是定义所需的电压和电流最小值,与晶体管的频率和漏电有关。
第二部分是在该定义的搜索空间中找到一个局部的最低电压,即所谓的Vmin搜索。
这两个要素加起来占了新ScarlettSoC所做的功耗节省的10-15%,而这些都是基于制造的优化。这些优化可能能够找到最佳结果的深度往往受限于上市时间(在必须决定一组特定值之前,你能分析多少个搜索点)和愿意投入多少资金。
对于任何给定的系统来说,启用功率状态为系统提供了一个关于功率、热学、声学以及手头任务所需性能的窗口。例如,告诉系统在其峰值功率状态下运行,将尽可能快地完成任何工作负载,但会降低功耗,散热和声学性能。
现代台式电脑经常会在运行中改变电源状态,而AMD的CPPC2技术允许这些电源状态在需要性能时成为连续不断的变化。另一方面,游戏机则因为系统与游戏开发者合作的性质,无法使用这个功能。
微软在系统中定义了许多功率状态,以便为游戏、视频播放、下载游戏更新和其他功能提供合适的性能。系统的每个部分都可以有自己的一套电源状态。
CPU具有8个电源状态
GPU具有5个电源状态
内部结构具有4个电源状态
Microsoft使用这些状态段来创建特定的游戏机操作模式,从而使开发人员能够针对给定的功能和性能进行工作和优化,而不是针对现代PC的移动目标。在这些主机游戏上,以1920x1080分辨率获得最低30 FPS本质上是最低标准,并且如果开发人员知道系统将具有保证的性能水平,,他们就可以按照这些性能数字进行调整。
这是Microsoft告诉我们的操作模式-可能还有更多。在玩游戏时,每种功率模式都设置为最大,因此系统可以完全访问所有必要的性能。在视频播放中,基于内容的格式,游戏机将处于多种不同的操作模式,然后有一些低功耗模式用于后台和已连接的待机模式。除了这些以外,可能还有其他电源模式,例如2D或独立游戏,或者系统检测到不需要某些性能级别。
保罗·帕特诺斯特(PaulPaternoster)进行的ISSCC演讲的内容之一是,与前几代游戏机相比,这一代产品在热密度测量方面有何不同。如Paul所言,过去他曾使用过几代Xbox处理器,他解释说,GPU通常是热密度的限制因素,它限制了平台的声学特性。GPU通常对性能有很高的要求,并且历史上一直是热点所在。保罗指出,对于XboxSeries X SoC,情况有所不同。
对于Scarlett来说,其实CPU才是成为限制因素的关键。使用AMD的高性能x86 Zen 2核心,而不是上一代的低功耗Jaguar核心,再加上游戏工作负载在此后7年的发展,意味着当游戏工作负载开始提升时,CPU上的双256位浮点单元就是最高热密度点发生的地方。
在显示的这张PPT中,虽然没有说明这里是什么样的工作负载,是活动的游戏还是电源病毒,但微软在CPU端显示的热点是87.4ºC,而GPU的热点只有80.9ºC。现在这也就涉及到硬件的频率选择和设计点,以及在CPU功率、GPU功率和整体散热特性和声学之间找到合适的平衡点。
微软表示,因为这种差异,现在CPU是散热的热点,所以现在的声学是围绕这个点来进行的。作为微软的测试结果,该公司表示该公司表示CPU对设计的声学影响不成比例:在声学预算上,CPU所消耗的每增加一瓦特的成本是GPU的五倍。
我没有考虑过这是一个有趣的观点,但这意味着为了达到预期的目标,Microsoft花了一些时间来优化合适的CPU频率,从而在性能和散热之间进行权衡。这也是为什么在启用同时多线程时系统以3.6GHz运行,而在同时禁用多线程时可以达到3.8GHz的原因。
上面我们已经介绍了Microsoft在本文中做出的许多设计选择,其中一些因素会影响性能分层,并确保设计能够获得最高的良率。我们尚未具体涉及的另一个因素是GPU。ScarlettSoC物理上具有56个图形计算单元,但在零售产品中仅使用52个。在ISSCC上的演讲花了一些时间探讨了这两种选择的优点,但最终解释了为什么Microsoft选择52。
Microsoft在这里谈论工作组处理器(WGP),其中包含两个计算单元和一些共享资源。这意味着全芯片设计具有28个WGP。
PaulPaternoster解释说,从下线的芯片来看,相当多的芯片可以在启用全部28个WGP的情况下运行。显卡的目标是提供12TFLOPs的性能,因此通过一些简单的数学计算,微软可以采用以下任何一种方式来达到这个数字。
在1675 MHz下启用了28个WGP
这两个配置均启用12个TFLOP。由于28 WGP设计的频率较低,因此还可以实现较低的电压,如果使用所有28WGP,则总功耗可节省20%。
当然,20%的功耗节省是相当可观的,因为它可以实现更好的每瓦性能,或者实现更高的性能。但问题是,在28颗WGP全部以这个频率运行的情况下,生产时没有足够的处理器下线。由于晶体管性能和缺陷,处理器的可变性意味着28个WGP版本在经济上没有意义。
微软使用的是台积电最好的仅有DUV的7nm(N7)工艺节点,据称其缺陷率为每平方厘米0.09个缺陷。
300毫米晶圆的面积为706.86 c㎡
每厘米2 0.09个缺陷的缺陷率意味着每个晶圆?64个缺陷
斯嘉丽是360.4平方毫米(15.831毫米x 22.765毫米)
请注意,SoC是矩形,晶圆是圆形,
晶圆芯片计算器显示,这种SoC尺寸的100%合格率将使每个晶圆147个芯片
Microsoft设置频率/功率,以便如果所有管芯都合格,则可以使用所有管芯
缺陷率为0.09 / cm 2时,每个晶片有107个良好的管芯
假设其中一个GPU计算单元或WGP发生缺陷,这个几率非常大,因为GPU是处理器中最大的部分,通过吸收这个缺陷,禁用这个WGP,这个SoC就可以用在游戏机上,有效良品率就会更高。
当缺陷率为0.09时,这是很好很低的缺陷率,同一芯片上出现两个缺陷的几率非常小。即便如此,只要选择只启用26个WGPs的设计,比全部28个WGPs少两个,几乎所有从生产线上下来的管芯都可以使用--有效提高了良品率,使每个处理器的平均成本降低了三分之一。
原文:
https://www.anandtech.com/show/16489/xbox-series-x-soc-power-thermal-and-yield-tradeoffs
推荐:
ISSCC 2021 all session PPT and papers!下载