三大处理器巨头迎战“内存墙”

点击蓝字  关注我们


在最近推出的96 核 Epyc Genoa CPU 的发布会期间,AMD 谈到了现代计算面临的最大挑战之一。在过去的几年里,处理器变得更强大的速度已经超过了为这些内核提供数据的内存子系统的速度。


“任何使用非常大内存占用的东西都需要大量带宽来驱动内核,”Gartner分析师蒂姆哈维告诉The Register。“如果你随机访问这些数据,那么你会丢失很多缓存,因此能够非常快速地提取数据将非常有用。”


这绝不是一个新现象,尤其是在高性能计算 (HPC) 工作负载中。The Next Platform一段时间以来一直在跟踪计算能力与内存带宽的增长比例。


但是,虽然转向 DDR5 4,800MTps DIMM 将使带宽比最快的 DDR4 提高 50%,但这本身并不足以满足AMD 的 96 核 Epycs。AMD 工程师不得不通过增加内存控制器的数量来弥补差异,从而将通道增加到 12 个。结合更快的 DDR5,Genoa 提供的内存带宽是 Milan 的两倍多。


该方法并非没有妥协。其一,添加更多通道需要为内存控制器分配更多芯片空间。还必须考虑一些信号注意事项,以支持连接到这些通道的更多 DIMM。然后是将所有这些 DIMM 物理安装到传统机箱中的挑战,尤其是在双插槽配置中。


正因如此,AMD 至少在接下来的几代产品中很可能会保持在 12 通道,转而依靠提高 DDR5 内存速度来提升带宽。


美光预计内存速度在 DDR5 的生命周期内可达到 8,800MTps。在 12 通道系统中,内存带宽约为 840GBps。


“DDR5 的性能会随着时间的推移而提高,但我们仍然会在可用内核和内存带宽之间存在巨大差异,并且很难满足它们的需求,”Harvey 说。


傲腾继续存在


虽然 AMD 解决该问题的方法包括将更多内存控制器物理地塞入其芯片中,并将更快的 DDR5 内存塞入系统中,但英特尔对Xeon Max CPU采取了不同的方法,它将为美国能源部长期延迟的 Aurora 超级计算机提供动力。


这些芯片以前称为 Sapphire Rapids HBM,在 56 核第四代 Xeon 可扩展处理器中封装了 64GB 的 HBM2e 内存,能够提供 1TBps 的带宽。


虽然技术上你可以完全脱离 HBM 运行芯片,但对于那些需要大量内存来处理大型自然语言模型的人来说,英特尔支持两种配置的分层内存,这让人联想到其最近被裁掉的Optane业务部门。


在英特尔的 HBM 平面模式下,任何外部 DDR5 都充当可单独访问的内存池。同时在缓存模式下,HBM 更像是 DDR5 的 4 级缓存。


尽管后者对于某些用例可能具有吸引力,因为它是透明的并且不需要任何软件更改,但 Harvey 认为,如果它的行为类似于英特尔的 Optane 持久内存,则 HBM 可能得不到充分利用。


“大多数时候,CPU 擅长在指令级别进行缓存;它们不太擅长在应用程序级别进行缓存,”他补充说,在平面模式下运行芯片可能很有希望,尽管这需要软件供应商的特殊考虑。


“如果你有一个大的 HBM 缓存有效地用于主内存,那么操作系统供应商,虚拟机管理程序供应商将比 CPU 更好地管理它,”他说。“CPU 看不到指令级别,而管理程序知道我将要在这个应用程序和那个应用程序之间切换,因此我可以将该应用程序预加载到 HBM 中。”


合封装 LPDDR


为了为其第一个数据中心 CPU 实现类似的高带宽,Nvidia 还将内存转移到了 CPU 上。但与 Intel 的 Xeon Max 不同,Nvidia 并不依赖昂贵的低容量 HBM 内存,而是使用 LPDDR5x 模块。


每个Grace Superchip都融合了两个 Grace CPU 芯片——每个芯片都有 72 个 Arm Neoverse V2 内核——通过芯片制造商的 900GB/s NVLink-C2C 互连连接。这些芯片的两侧是成排的 LPDDR5 内存模块,可提供 TB 的带宽和容量。


虽然很难确定,但我们最好的猜测是每个 Grace CPU die 都连接到八个 64GB LPDDR5x 内存模块,运行速度大约为 8,533MTps。这将为两个 CPU 芯片中的每一个计算出 546GBps 的带宽。


苹果实际上采用了类似的方法,尽管使用速度较慢的 LPDDR5 6,400MTps 内存,以在今年早些时候在 Mac Studio 中推出的M1 Ultra 处理器上实现 800GBps 的内存带宽。然而,Apple 这样做的原因与每核内存带宽的关系不大,而与为芯片的集成 GPU 供电有关。


对于 Nvidia 而言,与使用 HBM 之类的方法相比,该方法提供了一些明显的优势,最大的优势在于容量和成本。美光等供应商提供的 HBM2e 容量最高可达 16GB。这意味着您需要四倍于 LPDDR 的模块。


但根据哈维的说法,即使是这种方法也不是没有妥协。将内存靠近 CPU 封装上意味着您放弃了灵活性。如果你需要超过 1TB 的系统内存,你不能只是添加更多的 DIMM 到组合中——至少不是 Nvidia 的实现方式。


然而,对于英伟达这些芯片的目标市场来说,这可能仍然有意义,Harvey 解释说。“Nvidia 非常专注于具有特定需求的 AI/ML 工作负载,而英特尔则更专注于通用工作负载。”


CXL 还不是答案


AMD 的 Genoa 和英特尔的第 4 代 Xeon 可扩展处理器都增加了对 CXL 1.1 互连标准的支持。


Astera Labs和三星等公司早期实施该技术将允许新颖的内存配置,包括内存扩展和内存分层。


然而,目前,这些设备可用的带宽有限,这意味着它们在解决 CPU 和内存性能不匹配方面的作用有限。


AMD 的实施具有专用于 CXL 设备的 64 条通道。但是,由于这些通道的分叉方式,CXL 设备一次只能访问其中的四个通道。由于 CXL 1.1 基于 PCIe 5.0,这意味着每个设备的带宽限制为 16GBps。


“随着时间的推移,它可能会为内存带宽打开一些东西,但我认为最初的实现可能不够快,”Harvey 说。


随着未来几代 PCIe 的出现,这种情况可能会改变。互连技术的带宽通常会在每一代之后加倍。因此,通过 PCIe Gen 7.0,单个 CXL 4x 设备将拥有接近 64GBps 的可用带宽。


就目前而言,Harvey 认为 CXL 对于内存需求量大的应用程序最有价值,这些应用程序不一定对带宽或分层内存配置敏感。


———— / END / ————


●Arm 芯片出货:二季度75亿颗,总出货量2400亿颗
●又一家国产硅片公司上市,市值大涨91.73%
Ameya代理 | 德普微电子推出DP3265I 无外置电阻 16通道 PWM恒流驱动
●Ameya代理丨瑞萨电子发布内置视觉AI加速器的RZ/V系列器件,实现精确图像识别与多摄像头图像支持

备注:文章来源于网络信息安全仅供参考,不代表此公众号观点,如有侵权请联系删除。

关于AMEYA360

AMEYA360商城(www.ameya360.com)上线于2011年,现有超过3500家优质供应商,收录600万种产品型号数据,100多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+连接器等多个领域,平台主营业务涵盖电子元器件现货销售、BOM配单及提供产品配套资料等,为广大客户提供一站式购销服务。



点击下方“阅读原文”,询价吧!



皇华电子元器件IC供应商 上海皇华信息科技有限公司研发方案部门,由多名实力雄厚的硬件、软件工程师组成,提供基于飞思卡尔(freescale)、安霸(Ambarella)、瑞芯微、NXP等最新ARM平台的产品级解决方案。同时我们也为客户提供完全定制化服务
评论
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 111浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 111浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 98浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 87浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 73浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 125浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 58浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 102浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦