当代面向PC、手机的处理器,通常都会采用多级cache设计。比如高通骁龙处理器、Intel酷睿处理器,CPU部分都会有L1、L2、L3 cache。其中L1 cache最接近处理器核心,数据存取最快,容量也最小;接着是L2 cache,容量比L1 cache大很多,但速度会稍慢;L3是此类处理器的最后一级缓存系统(LLC),容量最大,但速度也最慢。

半导体制造技术发展的一个好处,就是现在的人,能对10多年前的人做到降维打击。比如说2001年发布的Windows XP操作系统,对硬件最低配置要求包括至少64MB内存,推荐128MB大小确保流畅运行。

而在这个时代,不是说内存大小提升了多少,而是连CPU芯片上的L3 cache(三级缓存),容量都可以达到256MB——处理器的片上存储资源,其读写速度就比内存(main memory)要快得多了。IBM去年Hot Chips 2021上展示的Telum芯片,虚拟L3 cache大小就有256MB(虽然在实体硬件设计上有些差异)。有人可能会说,那不是面向消费电子的的(而是面向大型计算机)。

去年我们撰文谈到过,AMD基于先进封装技术,已经把面向电脑的CPU L3 cache堆到了最高192MB——而且是确确实实能够在市面上买得到、装进电脑里的;价格也不算多贵。这就是半导体技术,在某种程度上表现出的时代碾压。

不过片上cache这么大,真的有用吗?

有关多级cache的基础知识

花少许篇幅做个小科普。当代面向PC、手机的处理器,通常都会采用多级cache设计。比如高通骁龙处理器、Intel酷睿处理器,CPU部分都会有L1、L2、L3 cache。其中L1 cache最接近处理器核心,数据存取最快,容量也最小;接着是L2 cache,容量比L1 cache大很多,但速度会稍慢;L3是此类处理器的最后一级缓存系统(LLC),容量最大,但速度也最慢。

文首提到的256MB这么大的cache,一般都只会是L3 cache——这种cache通常是处理器多个核心共享的一种缓存(L1就是每个核心独有、而非共享的);某些系统可能会有L4 cache,但L4 cache很少见,且这种cache在介质上也已经不再是片上SRAM;还有一些系统,在更高的层级会多一级System Cache,现在的手机AP SoC就是这样。

AMD Zen 3die shot,中间那些红红的都是Lcachedie shot from Fritzchens Fritz

DRAM内存是一种很慢的存储系统。现代CPU会率先预测所需的数据(和指令),提前把内存里的数据放进cache里。在核心需要的时候就可以立即取用。而多级cache的方案,是在速度、延迟、面积、成本等方面的某种权宜之计。

依据这个原理,更大的片内cache不就越有利于处理器的速度和性能提升吗?实际上,行业从以前PC处理器连L2 cache都不在片内,到现在L3 cache大到能装Windows XP(删去),还是历经了较长的历史发展期的。但cache可不是越大就一定越好的。

各方权衡

从当代中央处理器的die shot不难发现,cache可能是占据了最大面积的。片上cache用料增多,通常就意味着die size要变大,面积增大成本就要跟着急剧提升。要不然计算机也不需要内存、硬盘这种更多级的存储系统了。但也不光是成本致cache做不大,相关因素还包括利用率、延迟等。

从芯片设计的角度来说,各级cache的设计都受到一定的限制,比如L1 cache的位置和layout,不同的容量,在设计上就可能会有很大差别(而且在系统层面似乎还与更多因素相关)。利用率相关的问题,则有了我们常听到的cache miss rate, hit rate(未命中率/命中率)这类词。CPU的设计目标普遍在于最小化cache miss,也就是数据应当随时在cache中准备就绪——因为如果cache里没有,需要去内存取数据,就是上百个周期的延迟问题了。

特别值得一提的是“延迟(latency)”,它与cache大小很相关。cache越大,延迟一般也就越久。一方面是因为cache做大以后,面积也就变大了,和核心之间的物理距离也会变远;而更重要的是要从更大的空间里,去找到数据,要耗费的时间也更久。

比如说当代较小的L1 cache访问延迟可能低至3个时钟周期,而大的会增长到5个;小尺寸L2 cache延迟8个周期,大的甚至可以达到19个周期。听起来好像也没什么,但1个周期的节约在芯片设计上都是极为精贵的。做大cache,或许会有助于提升命中率,但延迟也可能十分致命。

先进封装工艺实现的大cache

去年AMD更新了自家的Ryzen 5000系列处理器,在原有5000系列处理器的基础上,出了个“3D V-cache”版。就是在原本的处理器die上方叠了一层L3 cache。

上面这张图是去年的Computex大会上,Lisa Su展示的Ryzen 5900X,其中一片die的上方垂直堆叠了一片L3 cache(左上方的那片die,即CCD die)。AMD表示,成品处理器上每片CCD都可以最多叠96MB SRAM,那么对于Ryzen 5000而言,最多就能堆出192MB L3 cache。

这种3D堆叠方案是基于台积电的SoIC工艺技术,其亮点在于堆叠两片die是采用hybrid bonding键合,能够达成显著更小的键合间距。《电子工程专辑》8月刊的封面故事很快将对先进封装技术做比较全面的解读,其中也会包含台积电的这种3D堆叠技术,欢迎届时阅读。

AMD当前面向服务器的Epyc,和面向PC的Ryzen,都已经有了应用3D V-cache技术的产品问世。而且AMD也明确表示后序的Zen 4、Zen 5等新架构,也会持续推进3D V-cache的布局工作。

针对Ryzen 5000 + 3D V-cache的宣传,AMD主要把着力点放在游戏上,表示相比于原版没有用3D V-cache的处理器,游戏性能平均提升15%。

更大容量cache的代价

要说性能的话,此前Chips and Cheese对IBM Telum处理器,和带3D V-cache的Ryzen处理器做了模拟测试。基于IBM此前公布的消息,IBM Telum跑在5+ GHz基频之上,且256MB L3 cache平均延迟在12ns左右(5GHz 60个周期)。(此项对比中,AMD Zen 3架构的32MB L3平均延迟46个周期)

Chips and Cheese所做以下相关指令追踪的大量测试,是通过模拟的方式来明确高延迟cache带来的影响。

从结果来看,某些子项获得了相当大幅度的性能提升,但也有很多对IPC产生了负面影响,最糟糕的情况下有超过10%的副作用。IPC低10%,在CPU领域基本就是一代微架构的差异。

没有受益于更大容量L3 cache的负载,主要是因为在32MB容量之下,cache hit rate缓存命中率就已经很高了。再把容量提升到256MB,更高的延迟实际上是对IPC造成最大影响的干扰项。还有不少负载的working set size非常大,即便有8倍的cache容量增加,提升的那点命中率也不足以抵消延迟更长造成的影响。

Chips and Cheese在评论中提到,从另一个角度来看,要用上更大的L3 cache,带来高延迟的前提下,需要显著缩减cache miss rate未命中率,才能够在更多应用中带来实际收益;否则对这部分应用而言,基本就是在浪费die面积、徒增功耗。

再来看看AMD的3D V-cache,毕竟IBM Telum离我们普通用户还是有些遥远。

AMD的这类产品已经上市了,以Ryzen 5800X3D为例,这颗芯片约等于Ryzen 5800X加了3D V-cache的版本,CPU的L3 cache从原本的32MB,增加到了96MB,是原版5800X的3倍之大;达到了Windows XP的内存容量最低安装需求(删去...)。

不过基于芯片的具体规格,更大的L3 cache从外部特性来看就已经付出了代价。首先是核心超频特性被禁用,而且基频降了400Mhz,睿频降了200MHz,这和电压方面的限制应该有关;密度更高还是叠起来的cache,显然对于榨取核心性能会有影响。这对于更倚重核心性能的负载,可能会不利。

另一点是Ryzen 5800X3D的价格更高了,达到了5900X的价格水平。而后者的CPU核心数比前者多出4个,频率也更高;当然L3 cache容量不及前者。可见用更多的die去搞大cache,的的确确付出了代价。

因为AMD方面并未给出V-cache的延迟信息,所以Chips and Cheese做了两组模拟测试。其一是假定96MB L3 cache的延迟与32MB一样——这是个理想情况,可以想象成是3D封装技术带来的红利;还有一组是设定96MB L3 cache延迟为52个周期——也就是相比于32MB L3 cache多出6个周期的延迟,结果如下:

在延迟无增加的情况下,一切自然是十分美好的。增加6个周期延迟以后,这张图基本是前面IBM Telum 256MB cache的翻版。不过大部分对延迟比较敏感的负载,性能损失也就不到5%。虽说5%的IPC降低也挺不好看,但实际应用中的感知应该不会那么明确。上述模拟相关的测试详情,可前往Chips and Cheese网站做参详。

所以AMD把它定位于“游戏”

值得一提的是,这个测试并不是要否定IBM和AMD用大cache的设计。因为的确是存在部分子项,在cache容量增大后有显著收益。而且IBM此前多代产品都有用大cache的传统,毕竟其目标市场很明确,就是较大working set size的负载类型:这类应用对延迟本身就相对的没那么敏感。

比较遗憾的是,Chips and Cheese并未明确哪些类型的负载,因为延迟增加而存在明确的性能退步。但好在AnandTech上个月已经对Ryzen 5800X3D做了测试(但很遗憾的是,没测延迟;从系统测试结果来看,延迟好像也并未构成大的影响)。

实际上,AMD针对这类型的芯片做宣传时也明确它面向“游戏”。AnandTech测了不少游戏,本文只给出几个比较具有代表性的,《孤岛惊魂5》、《无主之地3》和《最终幻想15》。

注意图中的价格标注应该是错误的,5800X的价格是350美元

在常规分辨率下,5800X3D在大半游戏里,都可越级秒杀自家更高定位的产品,以及隔壁的竞品;虽然价格也的确变高了。比如在《孤岛惊魂5》1080p Ultra画质下,Ryzen 5800X3D相比原版5800X,帧率提升了多达27%;比核心数更多、IPC更高、频率也更高的酷睿i7-12700K领先9%。

不过在不同分辨率和某些个别游戏里,测试结果会有差异,比如在4K分辨率下,Ryzen 5800X3D的大容量cache就变得无足轻重了,可轻易被主频和核心数更多的Intel超越。还有像《战争机器战略版(Gears Tactics)》《奇异小队(Strange Brigade)》这种游戏,对AMD的U本来也没有那么友好,即便常规分辨率下,5800X3D其实也讨不到多少好处。

不过在游戏之外,各类系统测试或真是负载测试都表现出,Ryzen 5800X3D的大cache没有什么软用。而且因为前文提到了其核心频率相比原版5800X还更低,所以某些测试里的成绩还弱于5800X,更不要说和核心微架构迭代的12代酷睿比。比如Cinebench R23多线程、Blender测试。

基本可以明确的是,PC使用场景下,非游戏类应用,3D V-cache即便达成了更大的cache容量,而且封装技术还很高级,价格还更贵,也帮不上什么忙。无怪乎AMD将此完全面向游戏玩家做宣传。所以对普通用户而言,还是要依据需求来决策选择。

不过我们感觉,像3D V-cache这种在工程上付出了较大努力的产品,还是值得相当程度的肯定的。尤其AMD这个系列的产品,乃是时下先进封装工艺技术发展的典型代表;更何况不是还有应用了3D V-cache的Epyc服务器处理器吗?

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
LG Display  12月18日表示,为加强OLED制造竞争力,自主开发并引进了“AI(人工智能)生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益