Rambus HBM4的控制器IP提供了32个独立通道的接口,总数据宽度可达2048位。基于这一数据宽度,当数据速率为6.4Gbps时,HBM4的总内存吞吐量将比HBM3高出两倍以上,达到1.64TB/s。与Rambus HBM3E控制器一样,HBM4内存控制器IP也是一个模块化、高度可配置的解决方案。

随着大语言模型(LLMs)的参数量已跨越万亿大关,并持续呈现增长态势,在此背景下,突破内存带宽与容量的固有瓶颈,对于满足AI在训练和推理过程中对实时性能的迫切需求,显得尤为关键。为了更好更快的帮助客户在其最先进的处理器与加速器中应用HBM4,Rambus日前率先推出业界首款HBM4控制器IP解决方案。

AI计算对高性能内存需求迫切

AI通常可以分为AI训练和AI推理这两个不同的过程。在AI训练阶段,不但需要给AI提供大量的数据,让它对这些数据进行分析,提取出其中的规律,形成一个AI模型。而且训练周期往往是数以周计,甚至数以月计,才可以实现完整的AI模型训练。

AI训练可以说是目前计算领域中最具挑战性和最难完成的任务之一,因为在这个阶段需要管理和处理的数据量极为庞大。如果训练过程能够越快完成,就意味着AI模型能够更早投入使用,从而帮助投资者尽早获得回报,并最大化投资回报率。

一旦模型完成了基于大量数据的训练,就可以将其应用于实际场景,并提供新的、模型未曾见过的案例进行推理,这就是AI推理阶段。在这一阶段,对性能也有较高要求,尤其是在推理速度和准确性上。毕竟,在通过大量真实案例对模型进行训练之后,我们期望它能够快速且准确地得出正确的结果。 

这两个步骤对内存的高性能需求各自提出了独特的挑战,既需要确保其既足够快速,性能足够强大,尺寸足够小。在推理阶段,还需要更短的延迟和更高的带宽,因为推理结果必须几乎实时地快速给出。

Rambus研究员兼杰出发明家Steven Woo博士用下图直观展现了内存市场需求快速增长和变化的趋势。可以看到,自2012年以来,内存对速度、容量和尺寸的要求每年都在以超过10倍的速度增长,且没有减缓的迹象。以大语言模型GPT为例,2022年11月发布的GPT-3使用了1750亿个参数,而今年5月发布的最新版本GPT-4o则使用了超过1.5万亿个参数。

Rambus研究员兼杰出发明家Steven Woo博士

“过去几年里,这些大语言模型的规模增长了超过400倍,但在相同时间内硬件内存的规模仅增长了2倍。”Steven Woo博士指出,这就意味着,要完成这些AI模型的任务,就必须投入额外数量的GPU和AI加速器,才能满足对内存容量和带宽的需求。

 

HBM异军突起

与DDR、LPDDR、GDDR相比,HBM凭借远高于普通DRAM的带宽和密度,得到了AI训练、高性能计算和网络应用等场景的垂青。

从构造结构来看,HBM中的DRAM内存首先通过中介层的物理连接与处理器相连,之后所有组件再连接到基板上,最终焊接在PCB上。HBM的DRAM堆栈采用多层堆叠架构,其中一个内存芯片可以直接连接处理器,每个HBM内存设备与处理器之间的数据通路由1024根“线”或信号路径组成,因此这种设计带来了极高的内存带宽、大容量和高能效。

下图展示了不同代际的HBM内存在数据传输速度、单个堆栈带宽、堆栈厚度以及最大设备容量等方面的具体参数。

可以看出,从HBM第一代到第二代、2E、3E,每一代的最明显变化就是单个堆栈带宽的急剧增加。以HBM3为例,随着命令、地址、时钟和其他附加信号的加入,HBM3所需的信号路径数量增加到约1700条,HBM3E单个设备的带宽超过了1.2TB/s,上千条信号路径远远超出了标准PCB所能支持的范围。因此,采用硅中介层作为桥梁,将内存设备和处理器连接起来,用类似于集成电路的工艺在硅中介层上蚀刻出间距非常小的信号路径,从而实现所需的信号线数量以满足HBM接口的要求。

目前,主要的DRAM制造商,如SK海力士、美光和三星,已经宣布推出HBM3E设备,数据传输速率最高可达9.6Gbps。正是由于这种精巧的结构设计和HBM DRAM的堆叠方式,HBM内存才能提供极高的内存带宽、优异的能效、极低的延迟,同时占用最小的面积。

在这一趋势推动下,HBM4正成为由JEDEC制定的下一代内存技术标准。从已知的资料来看,HBM4每个堆栈的带宽达到了1.6TB/s,将超过HBM3E,也使得最终的实际带宽会更高。

业内首款HBM4控制器IP

为了帮助处理器厂商和开发人员更轻松地集成和使用HBM4内存,Rambus日前宣布推出业内首款HBM4控制器IP,可以支持新一代HBM内存的部署,适用于最先进的处理器,包括AI加速器、图形处理器和高性能计算应用。

如前文所述,Rambus HBM4的控制器IP提供了32个独立通道的接口,总数据宽度可达2048位。基于这一数据宽度,当数据速率为6.4Gbps时,HBM4的总内存吞吐量将比HBM3高出两倍以上,达到1.64TB/s。与Rambus HBM3E控制器一样,HBM4内存控制器IP也是一个模块化、高度可配置的解决方案。

根据客户在应用场景中的独特需求,Rambus还提供定制化服务,涵盖尺寸、性能和功能等方面,关键的可选功能包括ECC、RMW和错误清理等。此外,为了确保客户能够根据需要选择各种第三方PHY并应用于系统中,Rambus还与领先的PHY供应商在匹配、认证和验证等环节开展了合作,确保客户在开发过程中能够一次流片成功。 

HBM 4的种种变化给Rambus带来的挑战是多方面的:一是确保控制器不会影响处理器上周围的其他模块;二是确保芯片时序收敛的挑战,以便能够拥有能够以所需速度工作的成功的芯片;第三,通道数增加还带来了实施挑战,例如封装复杂性、功率密度增加以及散热和DRAM刷新管理挑战;第四,如何确保Rambus的IP能够与系统的其他部分(如PHY和处理器的其余部分)无缝连接。

“我们花费了大量时间来确保我们的HBM4控制器IP的兼容性,并能够实现快速集成和首次硅片成功。这些是任何IP提供商都将面临的最困难的挑战。“Steven Woo博士说。

依托于多年来在HBM内存领域积累的丰富经验,Rambus目前已经成功完成了超过100次的HBM设计,并成功交付了业界领先的HBM3E内存控制器,以及业界最高数据传输速率的HBM2E内存控制器(速率达到每秒4Gbps)。

为帮助客户实现一次流片成功,Rambus在控制器测试平台、验证IP和物理中介层PHY三方面与生态伙伴展开合作。例如长期与西门子旗下的Avery Design Systems公司合作,并提供多种BFM,包括内存模块BFM、主机内存控制器BFM和PHY BFM。同时,对于客户所需要在控制器上进行的测试,Rambus提供非常广泛的测试序列,也可以执行特定控制器和PHY的测试序列,还使用了基于功能覆盖率的验证计划,确保完整性。 

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
微芯科技首席执行官Ganesh Moorthy在任职三年后宣布退休,董事长Steve Sanghi将重返首席执行官兼总裁的职位,以应对公司当前面临的严峻挑战。
HBM4将用于特斯拉正在开发的AI数据中心及其自动驾驶汽车。其中,特斯拉采购HBM4芯片将用于强化其超级电脑Dojo的性能。
SK海力士NAND闪存解决方案子公司Solidigm13日宣布推出现有最大的122TB(太字节)容量NAND闪存解决方案,并基于QLC的eSSD(企业级固态硬盘)新产品“D5-P5336”。
今天我又把同事的七彩虹战斧GeForce RTX 4060 8GB GDDR6显卡给拆了。发现它虽然用料不怎么样,但性能却非常地好。
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
随着AI相关需求的增加,HBM4预计将在AI服务器、数据中心、汽车驾驶等高性能计算领域得到广泛应用。在强劲的AI技术需求下,英伟达希望通过HBM4来确保其产品能够支持这些快速增长的高带宽需求。
自托管加密钱包是一种数字工具,它让用户可以完全掌控加密货币的私钥,特别是像比特币这样的数字资产。对于初次接触加密货币的用户来说,了解如何购买比特币是使用自托管钱包的第一步......
12月11-12日,“上海集成电路2024年度产业发展论坛暨第三十届集成电路设计业展览会”(ICCAD-Expo 2024)将在上海世博展览馆隆重举行。
NS800RT系列实时控制MCU凭借更加高效、功能更强大的实时控制能力和丰富的外设,使工程师能够在光伏/储能逆变器、不间断电源、工业自动化、协作机器人、新能源汽车大/小三电、空调压缩机等系统中,实现皮秒级别的PWM控制,从而显著提升系统运行精度和效率。
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,11月20日,小鹏汽车法务部官微发文称,近日,我们注意到在社交媒体及部分网络平台上流传着小鹏P7+采用了软包电池包的不实信息和谣言,且该
5V2A高效节能电源管理方案:U9513B+U7710SM多年来,消费电子产品的电源设计人员一直致力于研发在额定功率输出及待机状态下均能最大限度地减少功耗的电源方案。从功率的角度来讲,无论是毫瓦级可穿
三星的翻盖式摺叠手机 Galaxy Z Flip 系列近年频繁出现在韩剧中,凭借小巧可爱的外型掳获不少女性消费者喜爱!如今市场传出好消息,三星可能会在明年的Galaxy Z Flip 7 加码平价款机
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,本月初,小鹏P7+正式上市,包含限定版在内一共有三款车型,售价区间为17.88-21.88万元,超高的性价比让鹏P7+成为小鹏汽车的又一
蔚来小鹏奔向盈利”作者|刘雅杰编辑|秦章勇丢掉包袱,丢掉幻想,眼下新势力必须赚钱活下去,才是唯一出路。第三季度财报都已经发布,官方的说法大多是润色过的,比如理想是连续8个季度盈利,小鹏则效仿小米汽车,
三星电子劳资双方经过长时间谈判达成的临时工资谈判协议在工会投票中被否决。三星电子全国工会于今日(21日)将劳资协商方案提交工会成员投票,结果确认以41.36%赞成、58.64%反对的结果被否决。这一临
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,在11月20日晚的电话会议上,蔚来创始人、董事长兼CEO李斌预告了乐道品牌明年的新车阵容:分别对标理想 L8、理想 L7 的六七座中大型
一. 前言Linux中RTOS需要一个tick心跳进行调度处理,linux中的tick处理函数是scheduler_tick。本文从整体流程上来分析下执行到scheduler_tick的流程,以及过程
11 月 21 日消息,努比亚 Z70 Ultra 旗舰手机今日正式发布,延续了屏下前摄“真全面屏”设计,定价 4599 元起,现已开启预售,11 月 25 日上午 10 点正式开售。12GB + 2
印尼准备评估苹果公司提出的1亿美元投资提案,此时苹果公司试图说服政府解除对iPhone 16设下的销售禁令。印尼工业部在22日晚间发出的声明说,印尼确认已经收到苹果最新的投资提案,内容包含要在西爪哇省