设计师需要了解的HBM3相关知识

FPGA开发圈 2022-07-26 12:03

作者:新思科技产品市场总监 Brett Murdock

2022 年 1 月,JEDEC 发布了新标准 JESD238“高带宽内存 (HBM3) DRAM”。与现有的 HBM2E 标准 (JESD235D) 相比,HBM3 标准提出了多项增强功能,包括支持更大的密度、更高速运算、更高的 Bank 数、更高的可靠性、可用性、可维护性 (RAS) 功能、低功耗接口和新的时钟架构。HBM3 存储器很快就会被用于 HPC 应用,例如 AI、图形、网络,甚至可能用于汽车。本文重点介绍了 HBM3 标准的一些关键功能,例如高容量、低功耗、改进的信道和时钟架构以及更先进的 RAS 选项。图 1 中突出显示了一些关键功能。

图 1:HBM3 与 HBM2E 相比具有多项改进,包括更高的容量、更先进的 RAS 功能和更低的功耗

更大、更快、更低功耗

HBM2E 的上限为 16 Gb 器件,可在 12 层堆栈中实现,从而获得 24 GB 的总密度。我们尚未看到市场上出现任何 12 层的 HBM2E 堆栈,但标准是允许的。HBM3 标准支持密度高达 32 Gb 的设备以及高达 16 层的堆栈,从而获得 64 GB 的总存储空间,几乎实现了 3 倍的增长。Synopsys 预计 8 层和 12 层堆栈选项中的 16 GB 和 24 GB HBM3 器件很快就会上市。

为了支持更高密度的器件,HBM3 增加了从 12 层堆栈到 16 层堆栈的可用 Bank 数,最多提供 64 个 Bank,增加了 16 个 Bank。


HBM3 标准的最高速度为 6.4 Gbps,几乎是 HBM2E 的最高速度 3.6 Gbps 的两倍。


在不久的将来,我们有理由期待第二代 HBM3 设备的出现。只需看看 HBM2/2E、DDR5(6400 Mbps 升级到 8400 Mbps)和 LPDDR5(最大速度为 6400 Mbps,并快速让位于以 8533 Mbps 运行的 LPDDR5X)的速度历史记录,就可见一斑。HBM3 速度高于 6.4 Gbps?这只是时间问题。


除了提高容量和速度外,HBM3 还一直在专注于提高能效。HBM2E 已经提供了最低的传输每比特能耗,这主要是由于它是无端接接口,但 HBM3 在 HBM2E 上还有显著改善。与 HBM2E 的 1.2V 核心电压相比,HBM3 将核心电压降低至 1.1V。除了 100mV 内核电源压降外,HBM3 还可将 IO 信号从 HBM2E 的 1.2V 降低至 400mV。

道架

HBM2E 将通道定义为 128 位接口,由两个 64 位伪通道组成。在从系统访问内存方面,引脚接口基于每个通道进行定义,而设计人员则认为伪通道是一项关键功能。HBM2E 对伪通道的突发长度为 4 拍,允许以 32 字节数据包(8 字节宽,每次访问 4 拍)访问内存,该数据包的大小与大多数 GPU 缓存行相当。


HBM3 保持 HBM DRAM 的整体接口大小不变,即 1024 位数据。然而,该 1024 位接口现在被划分为 16 个 64 位通道,更重要的是,被划分为 32 个 32 位伪通道。由于伪通道的宽度已减小到 4 字节,因此对存储器的访问的突发长度增加到 8 拍,从而维持用于存储器访问的 32 字节数据包大小。


将伪通道的数量翻倍将是性能优于 HBM2E 的一大改进。再加上数据速率的提升,HBM3 可提供比 HBM2E 明显更卓越的性能。

可靠性、可用性、可维护性 (RAS)

HBM3 沿袭了 HBM2E 的一些特征,例如数据总线上的 DBI(ac) 和奇偶校验。命令和地址 (CA) 奇偶校验等其他特征已发生改变,从命令中的编码变为 CA 总线上的单独信号。

HBM3 中 RAS 的最大变化之一是如何处理纠错码 (ECC)。我们首先来了解一下 ECC 的主机侧。


HBM2E 为主机提供了一个选项,允许 DM 信号重新用作 ECC 存储位置,从而启用边带 ECC 实现。参考 HBM2E 的伪通道大小,这为用户提供了非常熟悉的 ECC 选项,与 DDR4 ECC DIMM 非常相似 — 支持 64 位数据和 8 位 ECC。


HBM3 已通过多种方式改变了这种 ECC 方法。首先是完全移除 DM 信号。如果系统的目标是将少于 32 字节的数据传输到存储器,则需要执行读改写操作,这可能会对性能造成不利影响。


从 HBM3 标准中删除 DM 信号后,每个伪通道增加了两个 ECC 信号。这并不能为用户提供与 SECDED ECC 相同的功能,因为用户必须真正考虑 32 字节数据(8 拍期间 4 字节数据)和 2 字节校验位(8 拍期间 2 位数据)的整个数据包访问,以汇编 34 字节/272 位代码。


HBM3 标准还考虑了器件侧,要求 HBM3 DRAM 具有片上 ECC。片上 ECC 使用 272 位数据字和 32 位校验位构建,形成 304 位代码字。HBM3 DRAM 的数据字大小是主机使用的代码字大小。现在 HBM3 DRAM 不仅保护数据,还保护主机生成的校验位。


HBM3 标准实时地提供 ECC 运算的结果。每个伪通道包括两个严重性信号,当从 HBM3 DRAM 读取时,这两个严重性信号提供有关突发访问的信息。所提供的信息是四个回答之一 — 所提供的数据没有错误,所提供的数据更正了单个错误,所提供的数据更正了多个错误,或者所提供的数据有未更正的错误。


当器件处于“自刷新”状态或主机发出“刷新所有 Bank”命令时,HBM3 DRAM 器件还支持错误检查和ECS。ECS 操作的结果可通过 IEEE 标准 1500 测试访问端口 (TAP) 访问 ECC 透明度寄存器获得。


HBM3 标准的新 RAS 功能支持刷新管理 (RFM) 或自适应刷新管理 (ARFM)。通常,RFM/ARFM 被用作一种有意或无意反击 Row Hammer 的技术。当重复访问 DRAM 行或行区域会影响未访问的附近行时,会发生 Row Hammer,从而影响这些附近行中的数据。使用 HBM3 DRAM 中的信息,HBM3 控制器能够确定何时需要额外的刷新管理来缓解 Row Hammer。

新的时钟架构

HBM3 的主要功能之一是新的时钟方案。在所有前几代 HBM 中,从主机到器件的单个时钟基本上同步了主机和器件之间的接口。该时钟信号 (CK) 用于设置从主机传递到器件的 CA 信号的传输速率。此外,它还固定了数据 (DQ) 和数据选通 (WDQS/RDQS) 在主机和器件(写入)或器件和主机(读取)之间传输的速率。

在考虑 HBM2E 时,时钟信号和数据选通均以 1.8 GHz 的最大速率运行,因此 CA 接口上信息传输的最大有效速率与数据一样,都为 3.6 Gbps。


HBM3 通过将传统时钟信号从主机去耦到器件和数据选通信号来更改时钟架构。事实上,虽然 HBM3 中 WDQS 和 RDQS 的全新最大速率为 3.2 GHz,可实现高达 6.4 Gbps 的数据传输速率,但 CK 从主机到器件的最快速率仅为 1.6 GHz(即使数据通道以 6.4 Gbps 运行)。


将时钟信号与选通分离,能使时钟信号的运行速度大幅度慢于数据选通。CA 总线上的最大信息传输速率现在为 3.2 Gbps,因为 CA 时钟的最大传输速率已限制为 1.6 GHz。虽然 HBM2E 需要 3.6 Gbps 的 CA 传输速率,但 HBM3 只需要 3.2 Gbps 的 CA 传输速率。

高速内部时钟

分离 CA 时钟和数据选通的决定不仅会影响主机和器件之间的接口,还会影响主机内部 HBM3 控制器和 HBM3 PHY 的接口。

在典型主机内,控制器和 PHY 与外部存储器通信。控制器和 PHY 之间的接口通常使用称为 DDR PHY 接口 (DFI) 的规范来实现。DFI 规范允许 SoC 设计师把通常将系统命令转换为 HBM 命令的 HBM3 控制器和通常将 SoC 上的数字域转换为主机到器件接口的模拟域的 HBM3 PHY 的设计分开。在 HBM3 控制器和 HBM3 PHY 之间具有已定义的接口,为设计师和集成商提供了在数字(控制器)和模拟 (PHY) 之间拆分设计团队的清晰描述。


在高性能 HBM2E 解决方案中,除了带宽外,延迟也是控制器和 PHY 的重点。在 HBM2E 系统中,时钟和选通以相同频率运行,最高可达 1.8 GHz。HBM2E 系统的最低延迟解决方案是使用 DFI 1:1 频率比 – 使控制器、DFI、PHY 和存储器都在同一 1.8 GHz 时钟上运行。


新的 HBM3 时钟架构使用户能够在从 HBM2E 迁移到 HBM3 时专注于低延迟、高性能的解决方案。如上所述,带 HBM3 的 CA 总线的最高定义频率为 1.6 GHz,而数据选通以 3.2 GHz 运行。这使用户能够为 HBM3 控制器和 PHY 实现 DFI 1:1:2 频率比。在这种情况下,控制器、DFI、PHY 和存储器时钟均以 1.6 GHz 运行,而选通频率为 3.2 GHz。这为设计师提供了命令和地址接口的 DFI 1:1 频率比以及数据的 DFI 1:2 频率比,所有这些都最大限度地减少了延迟。

总结

HBM3 标准提供了优于 HBM2E 标准的多项改进。有些是预期的改进 - 更大、更快和功耗更低的器件。有些是意想不到的 – 信道架构变更、RAS 改进和更新的时钟方法。新标准累计为用户提供显著改善的 HBM 存储器,用于下一代 SoC。

新思科技提供完善的 HBM3 IP 解决方案,包括控制器、领先工艺节点中可用的 PHY 以及 VIP。新思科技是 JEDEC 的活跃成员,帮助推动了最新存储器标准的制定和采用。新思科技的可配置存储器接口 IP 解决方案可以进行定制以满足 SoC 的确切要求,用于图形、云计算、网络、AI 等应用,甚至可能用于汽车。

FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论 (0)
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 152浏览
  • 退火炉,作为热处理设备的一种,广泛应用于各种金属材料的退火处理。那么,退火炉究竟是干嘛用的呢?一、退火炉的主要用途退火炉主要用于金属材料(如钢、铁、铜等)的热处理,通过退火工艺改善材料的机械性能,消除内应力和组织缺陷,提高材料的塑性和韧性。退火过程中,材料被加热到一定温度后保持一段时间,然后以适当的速度冷却,以达到改善材料性能的目的。二、退火炉的工作原理退火炉通过电热元件(如电阻丝、硅碳棒等)或燃气燃烧器加热炉膛,使炉内温度达到所需的退火温度。在退火过程中,炉内的温度、加热速度和冷却速度都可以根
    锦正茂科技 2025-04-02 10:13 78浏览
  • 在智能交互设备快速发展的今天,语音芯片作为人机交互的核心组件,其性能直接影响用户体验与产品竞争力。WT588F02B-8S语音芯片,凭借其静态功耗<5μA的卓越低功耗特性,成为物联网、智能家居、工业自动化等领域的理想选择,为设备赋予“听得懂、说得清”的智能化能力。一、核心优势:低功耗与高性能的完美结合超低待机功耗WT588F02B-8S在休眠模式下待机电流仅为5μA以下,显著延长了电池供电设备的续航能力。例如,在电子锁、气体检测仪等需长期待机的场景中,用户无需频繁更换电池,降低了维护成本。灵活的
    广州唯创电子 2025-04-02 08:34 159浏览
  • 随着汽车向智能化、场景化加速演进,智能座舱已成为人车交互的核心承载。从驾驶员注意力监测到儿童遗留检测,从乘员识别到安全带状态判断,座舱内的每一次行为都蕴含着巨大的安全与体验价值。然而,这些感知系统要在多样驾驶行为、复杂座舱布局和极端光照条件下持续稳定运行,传统的真实数据采集方式已难以支撑其开发迭代需求。智能座舱的技术演进,正由“采集驱动”转向“仿真驱动”。一、智能座舱仿真的挑战与突破图1:座舱实例图智能座舱中的AI系统,不仅需要理解驾驶员的行为和状态,还要同时感知乘员、儿童、宠物乃至环境中的潜在
    康谋 2025-04-02 10:23 111浏览
  • 职场之路并非一帆风顺,从初入职场的新人成长为团队中不可或缺的骨干,背后需要经历一系列内在的蜕变。许多人误以为只需努力工作便能顺利晋升,其实核心在于思维方式的更新。走出舒适区、打破旧有框架,正是让自己与众不同的重要法宝。在这条道路上,你不只需要扎实的技能,更需要敏锐的观察力、不断自省的精神和前瞻的格局。今天,就来聊聊那改变命运的三大思维转变,让你在职场上稳步前行。工作初期,总会遇到各式各样的难题。最初,我们习惯于围绕手头任务来制定计划,专注于眼前的目标。然而,职场的竞争从来不是单打独斗,而是团队协
    优思学院 2025-04-01 17:29 210浏览
  • 文/郭楚妤编辑/cc孙聪颖‍不久前,中国发展高层论坛 2025 年年会(CDF)刚刚落下帷幕。本次年会围绕 “全面释放发展动能,共促全球经济稳定增长” 这一主题,吸引了全球各界目光,众多重磅嘉宾的出席与发言成为舆论焦点。其中,韩国三星集团会长李在镕时隔两年的访华之行,更是引发广泛热议。一直以来,李在镕给外界的印象是不苟言笑。然而,在论坛开幕前一天,李在镕却意外打破固有形象。3 月 22 日,李在镕与高通公司总裁安蒙一同现身北京小米汽车工厂。小米方面极为重视此次会面,CEO 雷军亲自接待,小米副董
    华尔街科技眼 2025-04-01 19:39 227浏览
  • 北京贞光科技有限公司作为紫光同芯授权代理商,专注于为客户提供车规级安全芯片的硬件供应与软件SDK一站式解决方案,同时配备专业技术团队,为选型及定制需求提供现场指导与支持。随着新能源汽车渗透率突破40%(中汽协2024数据),智能驾驶向L3+快速演进,车规级MCU正迎来技术范式变革。作为汽车电子系统的"神经中枢",通过AEC-Q100 Grade 1认证的MCU芯片需在-40℃~150℃极端温度下保持μs级响应精度,同时满足ISO 26262 ASIL-D功能安全要求。在集中式
    贞光科技 2025-04-02 14:50 136浏览
  • 文/Leon编辑/cc孙聪颖‍步入 2025 年,国家进一步加大促消费、扩内需的政策力度,家电国补政策将持续贯穿全年。这一利好举措,为行业发展注入强劲的增长动力。(详情见:2025:消费提振要靠国补还是“看不见的手”?)但与此同时,也对家电企业在战略规划、产品打造以及市场营销等多个维度,提出了更为严苛的要求。在刚刚落幕的中国家电及消费电子博览会(AWE)上,家电行业的竞争呈现出胶着的态势,各大品牌为在激烈的市场竞争中脱颖而出,纷纷加大产品研发投入,积极推出新产品,试图提升产品附加值与市场竞争力。
    华尔街科技眼 2025-04-01 19:49 216浏览
  • 探针本身不需要对焦。探针的工作原理是通过接触被测物体表面来传递电信号,其精度和使用效果取决于探针的材质、形状以及与检测设备的匹配度,而非对焦操作。一、探针的工作原理探针是检测设备中的重要部件,常用于电子显微镜、坐标测量机等精密仪器中。其工作原理主要是通过接触被测物体的表面,将接触点的位置信息或电信号传递给检测设备,从而实现对物体表面形貌、尺寸或电性能等参数的测量。在这个过程中,探针的精度和稳定性对测量结果具有至关重要的影响。二、探针的操作要求在使用探针进行测量时,需要确保探针与被测物体表面的良好
    锦正茂科技 2025-04-02 10:41 80浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 206浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦