IBM放大招:再见,L3缓存!Hello,虚拟缓存!

原创 SSDFans 2021-09-17 07:43


点击蓝字
关注我们



在最近的Hot Chips大会上,IBM宣布了新的Z系列处理器主机。IBM Z以拥有大型L3缓存而闻名,同时拥有一个全局L4缓存芯片,服务于多个处理器。IBM全新Telum芯片不但取消了L4缓存,L3缓存也不见踪影。这一架构可能成为片上缓存设计的未来趋势。

 

缓存(cache)基础

 

任何现代处理器都有与之关联的多级缓存。这些缓存按容量、延迟和功率区分:最接近CPU的缓存速度最快、容量最小,离CPU远点的缓存容量变大、速度变慢,然后在进入主存之前可能还有一级更大的缓存。之所以设计缓存是因为CPU核心需要快速得到数据,如果所有数据都保存在DRAM中,那么每次取数据需要300多个周期。

 

一个现代CPU核心会提前预测需要什么数据,把这些数据从DRAM中取出,放到缓存中,然后当CPU需要数据的时候,可以更快地获取数据。一旦L1缓存线(cache line)被占用,该缓存线数据通常会被“驱逐”到L2缓存;如果L2缓存已满,L2中最古老的缓存线将被“驱逐”到L3缓存以腾出空间。这样如果CPU再次使用被移走的数据线,数据也不会离CPU太远。


从作用域上还区分私有和共享缓存。现代处理器设计有多个核,每个核至少有一个私有缓存(即L1 cache),只有该核才能访问。除此之外,一个缓存可以是某个核的私有缓存,也可以是所有核都可以使用的共享缓存。例如,Intel Coffee Lake处理器有8个核,每个核都有一个256kB的私有L2缓存;但在芯片范围内,所有核之间有一个16MB的共享L3缓存。这意味着,当某个核中L2数据想要被重用时,可以不断地将数据从较小的L2“驱逐”到较大的L3中。不仅如此,如果两个核需要共享一些数据,也可以通过共享的L3缓存实现。其实,“共享”缓存不一定在所有内核之间共享,也可能只在特定的几个内核之间共享。

 

权衡

 

既然缓存有助于减少执行时间,为什么处理器上没有1GB的L1或L2缓存?这里需要考虑多种因素,包括die面积、实用性和延迟。

 

首先是die面积——每个缓存结构在芯片上对应一块定义好的空间。设计芯片时,可能有一个最好的方法来放置核,以便获得最快的关键路径。但是缓存,尤其是L1缓存,必须靠近需要数据的地方;设计一个128KB的L1缓存和一个4KB的L1缓存的布局是非常不同的。除此之外,L2缓存有时占很大的die面积,虽然它通常不受核心设计其余部分的限制,但它仍然要与芯片需要保持平衡。任何大型共享缓存,无论是作为L2还是L3,通常都是芯片面积的大头。有时我们只关注核心中逻辑晶体管的密度,但对于超大缓存,也许缓存密度在最终使用的工艺节点中更为重要。

 

实用性也是一个关键因素:虽然我们主要谈论通用处理器,特别是那些为pc和服务器构建的x86处理器,或为智能手机和服务器构建的Arm处理器;但也有很多专用设计,用于特定的工作量或任务。如果处理器核心需要做的只是处理数据,例如一个摄像头AI引擎,那么工作负载就是一个定义良好的问题。这意味着可以对工作负载进行建模,并且可以优化缓存大小以获得最佳性能/功耗。如果缓存的目的是将数据接近核心,那么需要数据时缓存中的数据还没有准备好,被称为一个cache miss。任何CPU设计的目标是减少cache miss,以换取性能或功耗,所以用一个定义良好的工作量,核心可以围绕最佳性能/cache miss ratio所需的缓存构建。

 

延迟也是设计缓存大小的一个重要因素。缓存容量越大,访问所需的时间就越长;不仅因为缓存物理大小和到内核的距离,还因为需要搜索的缓存更多。例如,小的L1缓存可以在3个周期内访问数据,而大的L1缓存可能需要5个周期的延迟。一个小的L2缓存可以低至8个周期,而一个大的L2缓存可能需要19个周期。

 

一般情况下,如果缓存做得更大,延迟会更大,但缓存miss率会更低。这又回到了前面已定义工作负载的段落。我们看到,像AMD、英特尔、Arm等公司会对他们的大客户进行大量的工作量分析,以确定多大的cache工作效果最好,以及他们的核心设计应该如何发展。

 

IBM到底做了什么具有革命性的事情呢?

 

前面提到IBM Z是IBM的大型主机产品——也是业界的大拿。这些产品支撑着社会的关键要素,如基础设施和银行业。这些系统的停机时间每年以毫秒计,对于金融交易有大量的故障保险和故障转移;当系统运行时,必须保证所有数据库不发生故障,甚至在链上发生物理故障的情况下也是如此。

 

这就是IBM Z的切入点。它有很强的市场定位,同时有非常惊人的设计。

 

在上一代z15产品中,没有1个CPU 等同1个系统产品的概念。IBM Z的基本单位是5个处理器系统,使用两种不同类型的处理器。其中4个是计算处理器(CP),每个有12核和256MB共享L3缓存。这四个处理器分成两对,两对处理器连接到一个系统控制器(SC),系统控制器拥有960 MB的共享L4缓存,用于四个CP的数据。


注意,这个系统没有一个“全局”DRAM,每个CP都有各自支持DDR的等效内存。IBM将这五个处理器作为一个组合,用五个组合组成一个系统。这意味着一个IBM z15系统有20 x 256 MB的L3缓存,同时也有5 x 960 MB的L4缓存,连接在一个all-to-all的拓扑结构中。

 

IBM z15是一头猛兽。但是下一代IBM Z,被称为IBM Telum而不是IBM z16,采用了完全不同的方法来处理所有缓存。

 

IBM怎么处理缓存

 

新系统去掉了包含L4缓存的系统控制器,看起来更像一个普通的8核处理器。IBM单个处理器芯片基于三星7nm工艺,两个处理器封装成一个模块,然后将四个模块(8个CPU, 64核)放到一个单元中。4个单元构成一个系统,总共32个CPU/ 256核。


在单个芯片上有8个核心。每个核心有32MB的私有L2缓存,访问延迟为19个周期。这对于L2缓存来说是很长的延迟,但它的缓存容量比Zen 3的L2大64倍,Zen 3延迟是12个周期。


仔细看上图,可以发现所有中间的面积都是L2缓存;没有L3缓存,也没有物理共享的L3供所有内核访问。如果没有像z15那样的中央高速缓存芯片,意味着为了让需要一些共享数据的代码工作,将需要往返主存,这是很慢的。但是IBM已经想到了这一点。

 

这里L2缓存不仅仅是L2缓存。从表面上看,每个L2缓存确实是每个核心的私有缓存(32MB对于L2来说非常大);但是当需要从L2中移出缓存线时,不管是处理器故意的还是因为需要腾出空间,它都会试着在芯片的其他地方找到空间,而不是简单地消失。如果它在另一个核心的L2中找到了空间,它就会留在那里,并被标记为L3缓存线。

 

IBM在这里实现的是存在于私有物理缓存中的共享虚拟缓存的概念。这意味着L2缓存和L3缓存变成了相同的实体,同一个缓存可以根据需要包含来自不同内核的L2和L3缓存线。

 

这意味着整个芯片有8个私有32 MB L2缓存,也可以被认为有一个256 MB共享的“虚拟”L3缓存。在这个例子中,考虑如下等效:AMD的Zen 3芯片有8核和32 MB的L3缓存,每个核只有512 KB的私有L2缓存。如果它像IBM实现一个更大的L2/虚拟L3方案,最终每个核心会有4.5 MB的私有L2缓存,或者每个芯片拥有36 MB的共享虚拟L3缓存。

 

对于IBM Z,如果核心恰好需要在虚拟L3中的数据,而虚拟L3缓存线恰好是在其私有L2,那么19个周期的延迟会远低于共享物理L3缓存延迟 (大约55周期)。然而,更有可能的情况是,需要的虚拟L3缓存线在另一个核心的L2缓存中,IBM表示,这在其双向环互连上的平均延迟为12纳秒,带宽为320GB /s。12纳秒在5.2 GHz时约为62个周期,这将比物理L3缓存慢,但更大的L2意味着更小的L3使用压力。也因为L2和L3的大小灵活,容量较大,根据特定工作负载,整体延迟应该更低,工作负载范围也能有所增加。

 

继续深入

 

IBM Telum将两个芯片封装在一起,四个封装组成一个单元,四个单元组成一个系统,总共32个芯片、256核。IBM没有使用外部的L4缓存芯片,而是更进一步,使每个私有L2缓存也可以容纳相当于虚拟L4的缓存。

 

这意味着,如果从一个芯片上的虚拟L3中移除一条缓存线,它将在系统中找到另一个芯片,并将其标记为虚拟L4缓存线。

 

也就是说,从单一核心的角度来看,在256个核心系统中,它可以访问:

  • 32 MB私有L2缓存(19周期延迟)

  • 256MB片上共享虚拟L3缓存(+12ns延迟)

  • 8192MB/8GB 片外共享虚拟L4缓存 (+?延迟)

 

严格来说,从单核的角度来看,这些数字应该是32MB / 224 MB / 7936MB,因为单核不会将L2线挤出到自己的L2中,并将其标记为L3。

 

IBM表示,使用这种虚拟缓存系统,每个核心的缓存比IBM z15多1.5倍,而且还减少了数据访问的平均延迟。IBM宣称每套socket的性能提高了>40%,目前还没有其他基准测试。

 

这怎么可能?

 

这简直是魔法。老实说,当第一次看到这个的时候,笔者有点惊讶于到底发生了什么。

 

在问答环节中,IBM Z的首席架构师ChristianJacobi博士表示,该系统的设计目的是在cache miss的情况下使用广播跟踪数据,并且在向外部芯片广播时跟踪存储状态位。这些数据会贯穿整个系统,当数据到达时,它会确保数据可以被使用,并在处理数据之前确认所有其他副本都已失效。

 

说实话,对于实际操作应该还有很多需要考虑的事项,如:功耗;缓存在闲置时是否下电;如果单个核心为保证性能一致性,不允许成为其他核心的虚拟缓存等。

 

说到缓存,不得不提到AMD即将推出的V-cache技术。该技术通过在chiplet上面添加一个垂直堆叠的64 MB L3,将每个chiplet设置为96 MB的L3缓存,而不是32 MB L3缓存。但是,如果这个堆叠的64 MB不是L3,而是考虑给每个核额外增加8 MB L2,并能够接受虚拟L3缓存线,这对性能意味着什么?

 

笔者与一些业内同行讨论了IBM的虚拟缓存想法,他们的评论从“它应该工作得不是很好”到“它很复杂”,以及“如果IBM能做到所说的那样,那就很酷了”。



原文链接:

https://www.anandtech.com/show/16924/did-ibm-just-preview-the-future-of-caches



高端微信群介绍

创业投资群


AI、IOT、芯片创始人、投资人、分析师、券商

闪存群


覆盖5000多位全球华人闪存、存储芯片精英

云计算群


全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群


讨论AI芯片和GPU、FPGA、CPU异构计算

5G群


物联网、5G芯片讨论

第三代半导体群

氮化镓、碳化硅等化合物半导体讨论

储芯片群

DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子群

MCU、电源、传感器等汽车电子讨论

光电器件群

光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群

存储和芯片产品报价、行情、渠道、供应链




< 长按识别二维码添加好友 >

加入上述群聊




长按并关注

带你走进万物存储、万物智能、

万物互联信息革命新时代

微信号:SSDFans


SSDFans AI+IOT+闪存,万物存储、万物智能、万物互联的闪存2.0时代即将到来,你,准备好了吗?
评论
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 60浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 184浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 339浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 76浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 118浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 464浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 221浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 198浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 103浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 58浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 164浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 492浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 156浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 188浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 123浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦