设计师需要了解的HBM3相关知识

FPGA开发圈 2022-07-26 12:03

作者:新思科技产品市场总监 Brett Murdock

2022 年 1 月,JEDEC 发布了新标准 JESD238“高带宽内存 (HBM3) DRAM”。与现有的 HBM2E 标准 (JESD235D) 相比,HBM3 标准提出了多项增强功能,包括支持更大的密度、更高速运算、更高的 Bank 数、更高的可靠性、可用性、可维护性 (RAS) 功能、低功耗接口和新的时钟架构。HBM3 存储器很快就会被用于 HPC 应用,例如 AI、图形、网络,甚至可能用于汽车。本文重点介绍了 HBM3 标准的一些关键功能,例如高容量、低功耗、改进的信道和时钟架构以及更先进的 RAS 选项。图 1 中突出显示了一些关键功能。

图 1:HBM3 与 HBM2E 相比具有多项改进,包括更高的容量、更先进的 RAS 功能和更低的功耗

更大、更快、更低功耗

HBM2E 的上限为 16 Gb 器件,可在 12 层堆栈中实现,从而获得 24 GB 的总密度。我们尚未看到市场上出现任何 12 层的 HBM2E 堆栈,但标准是允许的。HBM3 标准支持密度高达 32 Gb 的设备以及高达 16 层的堆栈,从而获得 64 GB 的总存储空间,几乎实现了 3 倍的增长。Synopsys 预计 8 层和 12 层堆栈选项中的 16 GB 和 24 GB HBM3 器件很快就会上市。

为了支持更高密度的器件,HBM3 增加了从 12 层堆栈到 16 层堆栈的可用 Bank 数,最多提供 64 个 Bank,增加了 16 个 Bank。


HBM3 标准的最高速度为 6.4 Gbps,几乎是 HBM2E 的最高速度 3.6 Gbps 的两倍。


在不久的将来,我们有理由期待第二代 HBM3 设备的出现。只需看看 HBM2/2E、DDR5(6400 Mbps 升级到 8400 Mbps)和 LPDDR5(最大速度为 6400 Mbps,并快速让位于以 8533 Mbps 运行的 LPDDR5X)的速度历史记录,就可见一斑。HBM3 速度高于 6.4 Gbps?这只是时间问题。


除了提高容量和速度外,HBM3 还一直在专注于提高能效。HBM2E 已经提供了最低的传输每比特能耗,这主要是由于它是无端接接口,但 HBM3 在 HBM2E 上还有显著改善。与 HBM2E 的 1.2V 核心电压相比,HBM3 将核心电压降低至 1.1V。除了 100mV 内核电源压降外,HBM3 还可将 IO 信号从 HBM2E 的 1.2V 降低至 400mV。

道架

HBM2E 将通道定义为 128 位接口,由两个 64 位伪通道组成。在从系统访问内存方面,引脚接口基于每个通道进行定义,而设计人员则认为伪通道是一项关键功能。HBM2E 对伪通道的突发长度为 4 拍,允许以 32 字节数据包(8 字节宽,每次访问 4 拍)访问内存,该数据包的大小与大多数 GPU 缓存行相当。


HBM3 保持 HBM DRAM 的整体接口大小不变,即 1024 位数据。然而,该 1024 位接口现在被划分为 16 个 64 位通道,更重要的是,被划分为 32 个 32 位伪通道。由于伪通道的宽度已减小到 4 字节,因此对存储器的访问的突发长度增加到 8 拍,从而维持用于存储器访问的 32 字节数据包大小。


将伪通道的数量翻倍将是性能优于 HBM2E 的一大改进。再加上数据速率的提升,HBM3 可提供比 HBM2E 明显更卓越的性能。

可靠性、可用性、可维护性 (RAS)

HBM3 沿袭了 HBM2E 的一些特征,例如数据总线上的 DBI(ac) 和奇偶校验。命令和地址 (CA) 奇偶校验等其他特征已发生改变,从命令中的编码变为 CA 总线上的单独信号。

HBM3 中 RAS 的最大变化之一是如何处理纠错码 (ECC)。我们首先来了解一下 ECC 的主机侧。


HBM2E 为主机提供了一个选项,允许 DM 信号重新用作 ECC 存储位置,从而启用边带 ECC 实现。参考 HBM2E 的伪通道大小,这为用户提供了非常熟悉的 ECC 选项,与 DDR4 ECC DIMM 非常相似 — 支持 64 位数据和 8 位 ECC。


HBM3 已通过多种方式改变了这种 ECC 方法。首先是完全移除 DM 信号。如果系统的目标是将少于 32 字节的数据传输到存储器,则需要执行读改写操作,这可能会对性能造成不利影响。


从 HBM3 标准中删除 DM 信号后,每个伪通道增加了两个 ECC 信号。这并不能为用户提供与 SECDED ECC 相同的功能,因为用户必须真正考虑 32 字节数据(8 拍期间 4 字节数据)和 2 字节校验位(8 拍期间 2 位数据)的整个数据包访问,以汇编 34 字节/272 位代码。


HBM3 标准还考虑了器件侧,要求 HBM3 DRAM 具有片上 ECC。片上 ECC 使用 272 位数据字和 32 位校验位构建,形成 304 位代码字。HBM3 DRAM 的数据字大小是主机使用的代码字大小。现在 HBM3 DRAM 不仅保护数据,还保护主机生成的校验位。


HBM3 标准实时地提供 ECC 运算的结果。每个伪通道包括两个严重性信号,当从 HBM3 DRAM 读取时,这两个严重性信号提供有关突发访问的信息。所提供的信息是四个回答之一 — 所提供的数据没有错误,所提供的数据更正了单个错误,所提供的数据更正了多个错误,或者所提供的数据有未更正的错误。


当器件处于“自刷新”状态或主机发出“刷新所有 Bank”命令时,HBM3 DRAM 器件还支持错误检查和ECS。ECS 操作的结果可通过 IEEE 标准 1500 测试访问端口 (TAP) 访问 ECC 透明度寄存器获得。


HBM3 标准的新 RAS 功能支持刷新管理 (RFM) 或自适应刷新管理 (ARFM)。通常,RFM/ARFM 被用作一种有意或无意反击 Row Hammer 的技术。当重复访问 DRAM 行或行区域会影响未访问的附近行时,会发生 Row Hammer,从而影响这些附近行中的数据。使用 HBM3 DRAM 中的信息,HBM3 控制器能够确定何时需要额外的刷新管理来缓解 Row Hammer。

新的时钟架构

HBM3 的主要功能之一是新的时钟方案。在所有前几代 HBM 中,从主机到器件的单个时钟基本上同步了主机和器件之间的接口。该时钟信号 (CK) 用于设置从主机传递到器件的 CA 信号的传输速率。此外,它还固定了数据 (DQ) 和数据选通 (WDQS/RDQS) 在主机和器件(写入)或器件和主机(读取)之间传输的速率。

在考虑 HBM2E 时,时钟信号和数据选通均以 1.8 GHz 的最大速率运行,因此 CA 接口上信息传输的最大有效速率与数据一样,都为 3.6 Gbps。


HBM3 通过将传统时钟信号从主机去耦到器件和数据选通信号来更改时钟架构。事实上,虽然 HBM3 中 WDQS 和 RDQS 的全新最大速率为 3.2 GHz,可实现高达 6.4 Gbps 的数据传输速率,但 CK 从主机到器件的最快速率仅为 1.6 GHz(即使数据通道以 6.4 Gbps 运行)。


将时钟信号与选通分离,能使时钟信号的运行速度大幅度慢于数据选通。CA 总线上的最大信息传输速率现在为 3.2 Gbps,因为 CA 时钟的最大传输速率已限制为 1.6 GHz。虽然 HBM2E 需要 3.6 Gbps 的 CA 传输速率,但 HBM3 只需要 3.2 Gbps 的 CA 传输速率。

高速内部时钟

分离 CA 时钟和数据选通的决定不仅会影响主机和器件之间的接口,还会影响主机内部 HBM3 控制器和 HBM3 PHY 的接口。

在典型主机内,控制器和 PHY 与外部存储器通信。控制器和 PHY 之间的接口通常使用称为 DDR PHY 接口 (DFI) 的规范来实现。DFI 规范允许 SoC 设计师把通常将系统命令转换为 HBM 命令的 HBM3 控制器和通常将 SoC 上的数字域转换为主机到器件接口的模拟域的 HBM3 PHY 的设计分开。在 HBM3 控制器和 HBM3 PHY 之间具有已定义的接口,为设计师和集成商提供了在数字(控制器)和模拟 (PHY) 之间拆分设计团队的清晰描述。


在高性能 HBM2E 解决方案中,除了带宽外,延迟也是控制器和 PHY 的重点。在 HBM2E 系统中,时钟和选通以相同频率运行,最高可达 1.8 GHz。HBM2E 系统的最低延迟解决方案是使用 DFI 1:1 频率比 – 使控制器、DFI、PHY 和存储器都在同一 1.8 GHz 时钟上运行。


新的 HBM3 时钟架构使用户能够在从 HBM2E 迁移到 HBM3 时专注于低延迟、高性能的解决方案。如上所述,带 HBM3 的 CA 总线的最高定义频率为 1.6 GHz,而数据选通以 3.2 GHz 运行。这使用户能够为 HBM3 控制器和 PHY 实现 DFI 1:1:2 频率比。在这种情况下,控制器、DFI、PHY 和存储器时钟均以 1.6 GHz 运行,而选通频率为 3.2 GHz。这为设计师提供了命令和地址接口的 DFI 1:1 频率比以及数据的 DFI 1:2 频率比,所有这些都最大限度地减少了延迟。

总结

HBM3 标准提供了优于 HBM2E 标准的多项改进。有些是预期的改进 - 更大、更快和功耗更低的器件。有些是意想不到的 – 信道架构变更、RAS 改进和更新的时钟方法。新标准累计为用户提供显著改善的 HBM 存储器,用于下一代 SoC。

新思科技提供完善的 HBM3 IP 解决方案,包括控制器、领先工艺节点中可用的 PHY 以及 VIP。新思科技是 JEDEC 的活跃成员,帮助推动了最新存储器标准的制定和采用。新思科技的可配置存储器接口 IP 解决方案可以进行定制以满足 SoC 的确切要求,用于图形、云计算、网络、AI 等应用,甚至可能用于汽车。

FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 159浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 167浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 68浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 76浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 125浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 187浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 77浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 118浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 512浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 105浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 197浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦