PCIe扩展GPUVRAM容量新技术—实现两位数纳秒延迟!

EETOP 2024-07-03 11:44

用于 AI 和 HPC 应用的现代 GPU 内置了有限数量的高带宽内存 (HBM),限制了它们在 AI 和其他工作负载中的性能。然而,新技术将允许GPU通过与连接到PCIe总线的设备插入更多内存来扩展GPU内存容量,而不是局限于GPU内置的内存 - 它甚至允许使用SSD进行内存容量扩展。Panmnesia 是一家由韩国著名的 KAIST 研究所支持的公司,它开发了一种低延迟的 CXL IP,可用于使用 CXL 内存扩展器扩展 GPU 内存。

用于 AI 训练的更高级数据集的内存需求正在迅速增长,这意味着 AI 公司要么必须购买新的 GPU,要么使用不太复杂的数据集,要么以牺牲性能为代价使用 CPU 内存。尽管 CXL 是一种正式工作在 PCIe 链路之上的协议,从而使用户能够通过 PCIe 总线将更多内存连接到系统,但该技术必须得到 ASIC 及其子系统的认可,因此仅添加 CXL 控制器不足以使该技术正常工作,尤其是在 GPU 上。

由于 GPU 中缺少支持 DRAM 和/或 SSD 端点的 CXL 逻辑结构和子系统,Panmnesia 在集成 CXL 以实现 GPU 内存扩展时面临挑战。此外,GPU 缓存和内存子系统无法识别除统一虚拟内存 (UVM) 之外的任何扩展,后者往往很慢。

为了解决这个问题,Panmnesia 开发了一个符合 CXL 3.1 标准的根复合体(RC),配备多个根端口(RP),支持通过 PCIe 外部内存,并且具有带有主机管理设备内存(HDM)解码器的主桥,该解码器连接到 GPU 的系统总线。HDM 解码器负责管理系统内存的地址范围,使 GPU 的内存子系统“认为”它在处理系统内存,但实际上该子系统使用的是通过 PCIe 连接的 DRAM 或 NAND。这意味着可以使用 DDR5 或 SSD 来扩展 GPU 内存池。

根据 Panmnesia 的说法,这种基于定制 GPU 并标记为 CXL-Opt 的解决方案经过了广泛测试,显示出两位数纳秒的往返延迟(相比之下,三星和 Meta 开发的CXL-Proto,在下图中显示为 250 纳秒),包括标准内存操作和 CXL flit 传输之间协议转换所需的时间。它已经成功集成到硬件 RTL 中的内存扩展器和 GPU/CPU 原型中,证明其与各种计算硬件的兼容性。

根据 Panmnesia 的测试,UVM统一虚拟内存在所有测试的 GPU 内核中表现最差,这是由于在页面错误期间主机运行时干预的开销以及在页面级别传输数据,这往往超过了 GPU 的需求。相比之下,CXL 允许通过加载/存储指令直接访问扩展存储,从而消除了这些问题。

因此,CXL-Proto 的执行时间比 UVM 短 1.94 倍。Panmnesia 的 CXL-Opt 进一步将执行时间减少了 1.66 倍,其优化控制器实现了两位数纳秒的延迟,并将读/写延迟最小化。这一模式在另一张图表中也有所体现,图表显示了 GPU 内核执行期间记录的 IPC 值。数据显示,Panmnesia 的 CXL-Opt 分别比 UVM 和 CXL-Proto 的性能速度快 3.22 倍和 1.65 倍。

总体而言,CXL 支持可以为 AI/HPC GPU 带来很多好处,但性能是一个大问题。此外,AMD 和 Nvidia 等公司是否会为其 GPU 添加 CXL 支持还有待观察。如果将PCIe连接内存用于GPU的方法确实得到了发展,那么只有时间才能证明行业重量级人物是否会使用Panmnesia等公司的IP块,或者只是开发自己的技术。


芯片精品课程推荐

(本课提供在线答疑,购课后课添加微信:ssywtt 拉你入群)

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 68浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 164浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 502浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 189浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 184浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 105浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 156浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 118浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 123浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 76浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 65浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦