早就听闻采用3D V-cache、堆了更多cache资源的Ryzen 7xx0X3D系列处理器是神U。这种技术本身当然非常高端,但就成本角度来看,它真的划算吗?

最近AMD Ryzen R7 7800X3D突然又涨到了3000元往上的价格,不知道是台积电一侧3DIC先进封装工艺产能吃紧,还是需求侧突然对这类带更大LLC的处理器有了新需求。

我们之前特别撰文探讨过AMD的3D V-Cache技术。简单来说,这是一种通过3D先进封装来增加处理器L3 cache容量的技术——而且这个3D先进封装用的还是hybrid bonding混合键和这种难度系数和技术含量相对很高的方案,主要应当是考虑到带宽和延迟需求。

比如Ryzen 7800X3D把L3 cache堆到了96MB;更高规格的7900X3D、7950X3D,相比没有用3D V-cache的常规版CPU,L3 cache都扩容了1倍,达到128MB。服务器Epyc处理器这边,8个CCD每片如果都往上叠3D V-ache,则总共能堆出768MB的L3 cache——比当年的主存都大...

堆更大的L3 cache自然有利于较大working set size的负载实现更高的性能。那具体是什么负载呢?其实早在2021年AMD面向PC推这种3D V-cache技术时就已经明确了,这种型号后缀多了“3D”的Ryzen处理器主打游戏(Gaming)——抛开数据中心不谈,至少在PC应用场景内就是如此。当初在Ryzen 5000系列处理器发布时,AMD就提过3D V-cache能让游戏性能平均提升15%。

会不会是因为《黑神话:悟空》正当火热,所以游戏市场周边对此类带3D V-cache的CPU产生了新一波的需求,带动了7800X3D, 7600X3D这类处理器价格的上涨呢?

*测试平台:主板 (华硕TUF GAMING B650M-PLUS WIFI, MAG B760M MORTAR WIFI), 显卡 (GeForce RTX 4070), 内存 (DDR5-6000), 电源 (ANTEC 1000W), 操作系统 (Windows 11 23H2); 下同…

其实从测试数据来看,单就《黑神话:悟空》这一款游戏,Ryzen 7800X3D实际帧数表现是不及价格还略低的酷睿i7-14700KF的。以CPU为瓶颈的测试下(1080p 推荐画质),前者的帧率甚至比后者低了20%以上——当然实际游玩过程,通常在画质选择上以GPU为瓶颈,不会有这么大的差异。

抛开近期Intel深陷的负面新闻不谈,本文尝试再说道说道3D V-cache在PC领域内的价值,以及堆LLC是不是真的有那么神。

 

最大价值点:游戏

有关3D V-cache技术,及hybrid bonding先进封装,本文就不再多做赘述了。就制造和封装角度来看,这称得上是尖端技术在PC处理器上的应用先驱。而本文主要把注意力集中到应用上。

文首提到的《黑神话:悟空》应该说是个例。就综合游戏性能而言,Ryzen 7800X3D还是表现出了不错的优势的——尤其是相较自家不带V-cache的Ryzen 7800X。主要表现在一些L3 cache敏感型游戏,典型如《永劫无间》《Lol》《Dota 2》等;7800X3D都比酷睿i7-14700KF表现更优。

去年Chips and Cheese对3D V-cache版的AMD Ryzen处理器做了micro-benchmark。抛开3D V-cache带来额外的延迟、些微带宽降低不谈,Chips and Cheese主要测了4款游戏,分别是《GHPC(Gunner, HEAT, PC)》《赛博朋克2077》《DCS(数字战斗模拟)》《使命召唤17:黑色行动冷战》:主要是想看看加了V-cache,相较于没有V-cache的核心,对游戏负载带来了怎样的影响。

《赛博朋克2077》测试,来源:Chips and Cheese

在《GHPC》游戏中,V-cache版核心相比不带V-cache的核心,有着33%的L3 cache命中率提升(58.65%→78.00%),整体IPC提升在9.67%左右。《赛博朋克2077》游戏中,更大的L3 cache能够达成13.4%的IPC领先(L3命中率45.99%→63.74%);《使命召唤17》的情况也类似,3D V-cache能够获得19%的IPC增长(L3命中率46.51%→68.68%)——突有一种处理器架构换代的即视感。

对这三款游戏来说,L3 cache命中率的显著提升完全能够抵消3D V-cache更高的缓存延迟——而且Zen 4架构增大了L2 cache的容量,很大程度也能缓解L3 cache延迟的增加。

值得一提的是,《使命召唤》游戏过程中测得的IPC相比其他游戏更低。从更细粒度的管线各阶段分析来看,Renamer寄存器重命名是其中瓶颈。V-cache的增加能够显著降低后端瓶颈——因为更高的cache命中率也就能更好地喂给后端执行单元;但它对前端性能改善较小。

最后《DCS》的情况略有不同,L3命中率可提升幅度非常有限(89.06%→92.42%),此时3D V-cache更高的延迟开始发挥作用,相比不带V-cache的标准核心,IPC些微落后了2.3%左右。其实考虑更多系统层面变量,这点变化可能并不足以较大程度影响游戏帧率;不过此例至少能够说明,某些情况下,即便是在游戏场景内,缓存延迟的影响也大于容量。

《DCS游戏测试》,来源:Chips and Cheese

另外值得一提的是,更大的cache也不止能让游戏受惠,还有文件压缩(7-Zip)和视频编码(libx264)负载也能因此得到IPC提升。更具体的推荐去看一看Chips and Cheese的原文。只不过个别应用场景的IPC提升,并不是故事的全部。

 

更多缓存 or 更高算力

Chips and Cheese的测试中,我们认为比较有趣的是libx264视频编码测试。更大的L3 cache是能够帮助提升视频编解码性能的,测试结果也明确L3命中率提升10%左右,IPC提升因此也有4.9%。但在绝对性能上,这项测试里不带V-cache的CPU核心性能优于带V-cache的核心。

原因很简单,前者的核心频率比后者高了7%;更高的IPC不足以弥补频率缺失。这实际上在我们看来也成为3D V-cache的关键问题:有时不得不以更低的核心频率和核心数为代价,来换取更大的L3 cache。

我们知道,芯片设计是PPA权衡的艺术,加上3D V-cache意味着更大的die size和成本,以及与计算单元的功耗资源分配权衡。

同型号后缀是否带3D对比,如7950X的核心基频就比7950X3D高300Mhz。考虑价格,也就是芯片area面积因素:7950X3D目前京东售价4099元,而7950X的售价则为3449元——非官方的3D V-cache版CPU价格浮动会更大。

对用户而言,这就是个钱究竟是花在cache上,还是花在核心数/频率上的问题。要知道,现在7800X3D的价格是比7900X还高的。如果我们引入竞争对手的产品,那么情况就更复杂了——但问题的本质不变:钱是花在cache上,还是花在计算核心上。

如文首所述,Ryzen 7800X3D目前的价格是3000元左右;酷睿i7-14700KF的价格2700元。前者有着更大的L3 cache容量,后者有着更多的计算核心资源。

在更单纯考察核心算力资源的情况下,参照Cinebench R23的单线程与多线程渲染测试结果,这两颗处理器的情况是这样的:

另外,基于7800X3D的优势项,尝试集合实测性能下7800X3D表现不错的游戏有:

这番对比大概更有——“你掏钱是愿意买更多核心/更高的频率,还是愿意花在L3 cache上”——的意思。因为我们无法明确不同制造工艺及对应芯片面积的成本差异,抛开市场对价格的影响因素,这个问题的答案大方向可能取决于,你用PC究竟是为了做什么。

回到同Ryzen体系下的对比,去年AnandTech对Ryzen 7950X和7950X3D的评测显示,由于前者有着更高的核心频率及更宽松的TDP,在办公、网页、渲染、编码等主流场景,以及涉及兼容性的老测试中,表现出了更优的性能;科学与模拟仿真测试,两者互有胜负;

游戏测试的情况则相对复杂:4K高分辨率下,性能瓶颈主要在GPU侧,7950X3D的胜率略高——只不过受制于GPU,帧率领先非常有限;2k分辨率下,7950X3D的胜率更高;1080p分辨率大约是7950X3D的主场,在更多3A游戏中表现出色......

简单来说,基于PC大众使用场景,3D V-cache技术的价值主要表现在游戏应用上——而其他主流应用场景下,3D V-cache并没有什么软用,有时候甚至会帮倒忙。

所以AMD对这项技术的定位,从5800X3D起就很明确了:游戏。只不过即便是在游戏测试场景内,如前文Chips and Cheese测试的《DCS》以及文首《黑神话:悟空》那样,也总有些游戏实际是更吃高频与核心算力——或者说资源堆在核心和频率上更划算。

 

游戏场景下的一些讲究

早就听闻7800X3D是游戏神U,但实际跨品牌特别选择一些游戏的话,酷睿i7-14700KF也是可以让Ryzen 7800X3D的场面非常难看的,比如像下面这样:

一般在游戏过程中,CPU负责处理游戏逻辑、AI、物理计算等非图形相关工作。这些任务也需要快速访问数据。那么更大的CPU cache可存储这些数据,就比频繁访问更慢的主内存更好。

在与GPU协作的过程中,CPU准备面向GPU的数据和指令;更大缓存也意味着指挥GPU的时间能减少。另外,有些游戏可充分利用CPU多核资源,更大的缓存也有利于核间数据共享,提升多线程游戏引擎的性能。

那为什么从测试结果来看,3D V-cache对于部分游戏未能表现得很友好呢?我们猜测这里面还是有不同变量的。比如说Ryzen处理器基于chiplet方案,每8个核心为一片CCD(die)——比如对于7900X3D/7950X3D这样的处理器而言,就需要两片CCD。

3D V-cache只位于其中一片CCD之上,另一片CCD上方是没有V-cache的。这就造成了两边资源的不同,甚至颇有点“异构”的意思。那么游戏究竟跑在哪边的CCD上,就颇有讲究了。这对驱动提出了要求,检测特定负载,决定它更需要cache,还是更需要高频率——这甚至成为了一个调度问题。这一点可能会成为限制高效发挥CPU性能的一部分。

另外,也不是所有游戏都对cache大小表现出敏感。如果程序本身就有更加可预测的存储访问模式,或者更小的working set,就不怎么会从更大容量的LLC获得什么高收益。

还有比较典型的事实,部分策略类游戏和老游戏更吃单核性能——Intel此时就有显著优势了。以及不同游戏自身的特性也决定了其性能瓶颈。

比较典型的像是《微软模拟飞行》。很多玩家应该知道,这是个相当吃CPU资源的游戏。这可能与其游戏性质有关:对实时天气、物理、空中交通的模拟,是很吃CPU资源的;另外游戏内有较多数量的对象——包括建筑、树木、车辆等,也都增加了CPU负载;加上对象LOD,以及主线程追求更高的单线程性能...杂糅不同要素,酷睿i7-14700KF因此能在这款游戏中表现出显著优于Ryzen 7800X3D的性能。

当然了,在很多游戏场景下,3D V-cache仍然是表现出了性能优势的——这一点不应被否认。只不过就综合性能角度考虑,3D V-cache的确是个需要被权衡的参考因素。

从系统层面来看,包括游戏是否更依赖单核性能,游戏引擎面向硬件的架构优化,内存延迟与带宽表现,以及游戏自身的特性都有关系。《全面战争:三国》《骑马与砍杀2》《GTA5》等游戏中,3D V-cache未能讨到好处也就可以理解了。

Intel在此间的某些变量要素都有优势,包括单核性能、实际的内存延迟和带宽表现等。还有个关键,也在于两颗处理器算力资源的不对等。

 

3D V-Cache真的值得吗?

总感觉对比酷睿i7-14700KF和Ryzen 7800X3D,某种程度上并不合理。从标称TDP功耗的角度来看,后者默认TDP 120W——从AnandTech去年的实测来看,其实际和日常功耗更低;而前者允许的最大睿频功耗是253W。

抛开架构、工艺之类的细节问题,从粗线条来看,前者是20核28线程的CPU,后者仅8核16线程。所以虽然双方L3 cache资源不对等(33MB vs 96MB),计算资源实际也是不对等的。在游戏之外,很容易想见常见的生产力、渲染、内容创作等测试,7800X3D的性能与14700KF不在一个维度。

但仍然需要注意,从成本的角度来看,现在酷睿i7-14700KF就是比Ryzen 7800X3D要便宜的。虽然可能用不带核显的U来比价格也略失偏颇了,不过此处要表现的仍然是对应成本下,硬件资源的选择和权衡问题。

如文首所述,不知是hybrid bonding成本高,还是终端产品更多受市场因素影响,3D V-cache现阶段可是真的不便宜。单纯为了个别存储敏感型游戏些微提升些帧数,堆LLC真的值得吗?

最后多提一句,本文仅从PC角度来看现阶段的3D V-cache处理器。实际上,我们认为3D V-cache更大的价值在特定负载的数据中心市场——这大概也是最初AMD预设该技术的主场。不过这就是另一个话题了。

Hybrid bonding自然是相当一颗赛艇的技术,必然成为HPC的未来;但在具体实施到PC处理器的3D V-cache上,可能对大部分人而言,现阶段这都是个成本投入有些高、效率与成本效益都并不及预期的技术。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
使用旗下CUDA-Q平台,谷歌可以在英伟达Eos超算上动用1024块H100 Tensor核心GPU,以极低的成本执行全球最大、最快的量子设备动力学模拟,可以对容纳40个量子比特的设备进行全面、逼真的模拟。
为了应对这一挑战,英伟达正在与多家云服务提供商合作,共同优化散热方案,并强调工程迭代是正常且预期的一部分,但其交付时间或不得不再次推迟。
晶华微的信披问题并非首次被监管机构关注。2022年以来,公司及其多名高管已多次因信息披露不准确、募集资金管理和财务章使用不规范等问题收到上海证券交易所的监管警示。
最近国产AI芯片市场遭遇一波有关7nm被禁的震荡,现状如何了?
摩尔线程的全功能GPU芯片采用自研MUSA架构,内置图形渲染、视频编解码、AI计算加速、物理仿真和科学计算四大引擎。这些芯片能够支持多种工作负载,包括AI训练与推理加速、超高清视频编解码、物理仿真与科学计算等。
“机器狼群”是一种高度智能化的无人作战系统,由多个不同功能的“机器狼”组成,每个“机器狼”在团队中扮演特定角色,形成高效的协同作战单元。
自托管加密钱包是一种数字工具,它让用户可以完全掌控加密货币的私钥,特别是像比特币这样的数字资产。对于初次接触加密货币的用户来说,了解如何购买比特币是使用自托管钱包的第一步......
12月11-12日,“上海集成电路2024年度产业发展论坛暨第三十届集成电路设计业展览会”(ICCAD-Expo 2024)将在上海世博展览馆隆重举行。
NS800RT系列实时控制MCU凭借更加高效、功能更强大的实时控制能力和丰富的外设,使工程师能够在光伏/储能逆变器、不间断电源、工业自动化、协作机器人、新能源汽车大/小三电、空调压缩机等系统中,实现皮秒级别的PWM控制,从而显著提升系统运行精度和效率。
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,11月20日,小鹏汽车法务部官微发文称,近日,我们注意到在社交媒体及部分网络平台上流传着小鹏P7+采用了软包电池包的不实信息和谣言,且该
★欢迎星标 果壳硬科技★“撒尿!撒尿!”旁边的两个小孩不断调整口音,力求最标准地喊出“撒尿”两个字。终于,桌上的机器狗缓缓抬起一只后腿,做出了狗狗撒尿的动作。与机器狗同出一家的桌面机器猫,同样能执行“
文|Grace2024年最火的细分市场,非方盒子莫属。今年前10个月,越野类SUV销量同比增长了100%,且还在持续加速。方盒子市场从蓝变红的过程中,既有越野老炮儿推陈出新,也有新玩家另辟蹊径入局,如
11 月 21 日消息,努比亚 Z70 Ultra 旗舰手机今日正式发布,延续了屏下前摄“真全面屏”设计,定价 4599 元起,现已开启预售,11 月 25 日上午 10 点正式开售。12GB + 2
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,在11月20日晚的电话财报会上,蔚来董事长、CEO李斌还立下了一个重大目标,公司2026年实现盈利。2025年蔚来目标实现100%的销量
11月18日,福建兆元光电有限公司(以下简称“兆元光电”)与厦门大学福建省半导体光电科技经济融合服务平台签署战略合作协议,双方将就Mini/Micro LED新型显示关键技术研发进行深入合作,推动Mi
三星电子劳资双方经过长时间谈判达成的临时工资谈判协议在工会投票中被否决。三星电子全国工会于今日(21日)将劳资协商方案提交工会成员投票,结果确认以41.36%赞成、58.64%反对的结果被否决。这一临
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,11月20日,据“吉利汽车集团”官方发布消息,哈尔滨第9届亚冬会首批官方指定用车——吉利醇氢电混汽车发车仪式在吉利晋中基地举行,350辆
印尼准备评估苹果公司提出的1亿美元投资提案,此时苹果公司试图说服政府解除对iPhone 16设下的销售禁令。印尼工业部在22日晚间发出的声明说,印尼确认已经收到苹果最新的投资提案,内容包含要在西爪哇省
文|萝吉所谓“哪里有流量,哪里就有生意”,这句不知出自哪个圈子的话,已经在各行各业被奉为圭臬,并在过去半年里,彻底席卷了整个汽车圈。从开抖音账号搞网红路线的基层销售,到时不时来场直播介绍产品的高层大佬