三大处理器巨头迎战“内存墙”

点击蓝字  关注我们


在最近推出的96 核 Epyc Genoa CPU 的发布会期间,AMD 谈到了现代计算面临的最大挑战之一。在过去的几年里,处理器变得更强大的速度已经超过了为这些内核提供数据的内存子系统的速度。


“任何使用非常大内存占用的东西都需要大量带宽来驱动内核,”Gartner分析师蒂姆哈维告诉The Register。“如果你随机访问这些数据,那么你会丢失很多缓存,因此能够非常快速地提取数据将非常有用。”


这绝不是一个新现象,尤其是在高性能计算 (HPC) 工作负载中。The Next Platform一段时间以来一直在跟踪计算能力与内存带宽的增长比例。


但是,虽然转向 DDR5 4,800MTps DIMM 将使带宽比最快的 DDR4 提高 50%,但这本身并不足以满足AMD 的 96 核 Epycs。AMD 工程师不得不通过增加内存控制器的数量来弥补差异,从而将通道增加到 12 个。结合更快的 DDR5,Genoa 提供的内存带宽是 Milan 的两倍多。


该方法并非没有妥协。其一,添加更多通道需要为内存控制器分配更多芯片空间。还必须考虑一些信号注意事项,以支持连接到这些通道的更多 DIMM。然后是将所有这些 DIMM 物理安装到传统机箱中的挑战,尤其是在双插槽配置中。


正因如此,AMD 至少在接下来的几代产品中很可能会保持在 12 通道,转而依靠提高 DDR5 内存速度来提升带宽。


美光预计内存速度在 DDR5 的生命周期内可达到 8,800MTps。在 12 通道系统中,内存带宽约为 840GBps。


“DDR5 的性能会随着时间的推移而提高,但我们仍然会在可用内核和内存带宽之间存在巨大差异,并且很难满足它们的需求,”Harvey 说。


傲腾继续存在


虽然 AMD 解决该问题的方法包括将更多内存控制器物理地塞入其芯片中,并将更快的 DDR5 内存塞入系统中,但英特尔对Xeon Max CPU采取了不同的方法,它将为美国能源部长期延迟的 Aurora 超级计算机提供动力。


这些芯片以前称为 Sapphire Rapids HBM,在 56 核第四代 Xeon 可扩展处理器中封装了 64GB 的 HBM2e 内存,能够提供 1TBps 的带宽。


虽然技术上你可以完全脱离 HBM 运行芯片,但对于那些需要大量内存来处理大型自然语言模型的人来说,英特尔支持两种配置的分层内存,这让人联想到其最近被裁掉的Optane业务部门。


在英特尔的 HBM 平面模式下,任何外部 DDR5 都充当可单独访问的内存池。同时在缓存模式下,HBM 更像是 DDR5 的 4 级缓存。


尽管后者对于某些用例可能具有吸引力,因为它是透明的并且不需要任何软件更改,但 Harvey 认为,如果它的行为类似于英特尔的 Optane 持久内存,则 HBM 可能得不到充分利用。


“大多数时候,CPU 擅长在指令级别进行缓存;它们不太擅长在应用程序级别进行缓存,”他补充说,在平面模式下运行芯片可能很有希望,尽管这需要软件供应商的特殊考虑。


“如果你有一个大的 HBM 缓存有效地用于主内存,那么操作系统供应商,虚拟机管理程序供应商将比 CPU 更好地管理它,”他说。“CPU 看不到指令级别,而管理程序知道我将要在这个应用程序和那个应用程序之间切换,因此我可以将该应用程序预加载到 HBM 中。”


合封装 LPDDR


为了为其第一个数据中心 CPU 实现类似的高带宽,Nvidia 还将内存转移到了 CPU 上。但与 Intel 的 Xeon Max 不同,Nvidia 并不依赖昂贵的低容量 HBM 内存,而是使用 LPDDR5x 模块。


每个Grace Superchip都融合了两个 Grace CPU 芯片——每个芯片都有 72 个 Arm Neoverse V2 内核——通过芯片制造商的 900GB/s NVLink-C2C 互连连接。这些芯片的两侧是成排的 LPDDR5 内存模块,可提供 TB 的带宽和容量。


虽然很难确定,但我们最好的猜测是每个 Grace CPU die 都连接到八个 64GB LPDDR5x 内存模块,运行速度大约为 8,533MTps。这将为两个 CPU 芯片中的每一个计算出 546GBps 的带宽。


苹果实际上采用了类似的方法,尽管使用速度较慢的 LPDDR5 6,400MTps 内存,以在今年早些时候在 Mac Studio 中推出的M1 Ultra 处理器上实现 800GBps 的内存带宽。然而,Apple 这样做的原因与每核内存带宽的关系不大,而与为芯片的集成 GPU 供电有关。


对于 Nvidia 而言,与使用 HBM 之类的方法相比,该方法提供了一些明显的优势,最大的优势在于容量和成本。美光等供应商提供的 HBM2e 容量最高可达 16GB。这意味着您需要四倍于 LPDDR 的模块。


但根据哈维的说法,即使是这种方法也不是没有妥协。将内存靠近 CPU 封装上意味着您放弃了灵活性。如果你需要超过 1TB 的系统内存,你不能只是添加更多的 DIMM 到组合中——至少不是 Nvidia 的实现方式。


然而,对于英伟达这些芯片的目标市场来说,这可能仍然有意义,Harvey 解释说。“Nvidia 非常专注于具有特定需求的 AI/ML 工作负载,而英特尔则更专注于通用工作负载。”


CXL 还不是答案


AMD 的 Genoa 和英特尔的第 4 代 Xeon 可扩展处理器都增加了对 CXL 1.1 互连标准的支持。


Astera Labs和三星等公司早期实施该技术将允许新颖的内存配置,包括内存扩展和内存分层。


然而,目前,这些设备可用的带宽有限,这意味着它们在解决 CPU 和内存性能不匹配方面的作用有限。


AMD 的实施具有专用于 CXL 设备的 64 条通道。但是,由于这些通道的分叉方式,CXL 设备一次只能访问其中的四个通道。由于 CXL 1.1 基于 PCIe 5.0,这意味着每个设备的带宽限制为 16GBps。


“随着时间的推移,它可能会为内存带宽打开一些东西,但我认为最初的实现可能不够快,”Harvey 说。


随着未来几代 PCIe 的出现,这种情况可能会改变。互连技术的带宽通常会在每一代之后加倍。因此,通过 PCIe Gen 7.0,单个 CXL 4x 设备将拥有接近 64GBps 的可用带宽。


就目前而言,Harvey 认为 CXL 对于内存需求量大的应用程序最有价值,这些应用程序不一定对带宽或分层内存配置敏感。


———— / END / ————


●Arm 芯片出货:二季度75亿颗,总出货量2400亿颗
●又一家国产硅片公司上市,市值大涨91.73%
Ameya代理 | 德普微电子推出DP3265I 无外置电阻 16通道 PWM恒流驱动
●Ameya代理丨瑞萨电子发布内置视觉AI加速器的RZ/V系列器件,实现精确图像识别与多摄像头图像支持

备注:文章来源于网络信息安全仅供参考,不代表此公众号观点,如有侵权请联系删除。

关于AMEYA360

AMEYA360商城(www.ameya360.com)上线于2011年,现有超过3500家优质供应商,收录600万种产品型号数据,100多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+连接器等多个领域,平台主营业务涵盖电子元器件现货销售、BOM配单及提供产品配套资料等,为广大客户提供一站式购销服务。



点击下方“阅读原文”,询价吧!



皇华电子元器件IC供应商 上海皇华信息科技有限公司研发方案部门,由多名实力雄厚的硬件、软件工程师组成,提供基于飞思卡尔(freescale)、安霸(Ambarella)、瑞芯微、NXP等最新ARM平台的产品级解决方案。同时我们也为客户提供完全定制化服务
评论
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 114浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 42浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 104浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 170浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 66浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 71浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 80浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 83浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 125浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 141浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦