CXL:破解AI时代“内存墙”新途径

智能计算芯世界 2024-05-16 07:38

AI大模型的快速发展推动“算力”和“存力”需求快速增长,“内存墙”问题由来已久,在 AI 时代表现的愈发明显,“算力”和“运力”之间的差距越来越大。Transformer 类的模型参数的数量呈现指数增长,每两年增加 410 倍,而 GPU 内存仅以每两年 2 倍的速度扩展。
下载链接:
CXL高速互联:破解AI时代“内存墙”新途径
《人工智能AI行业报告合集》
1、人工智能的法律探究 2、2024年人工智能指数报告 3、中国生成式 AI 开发者洞察(2024)
2024电源管理芯片产业分析报告
面向超万卡集群的新型智算技术白皮书(2024)
《NVIDIA BlueField系列合集》
1、NVIDIA BlueField系列一:BlueField产品更新介绍 2、NVIDIA BlueField系列二:BlueField硬件系统介绍
3、NVIDIA BlueField系列三:BlueField DPU NVQual Overview
《AI Agent技术应用合集》
1、面向办公自动化领域的 AI Agent 建设思考与分享 2、AI Agent 在企业经营分析场景的落地 3、LLM和Multi-Agent在运维领域的实验探索
《大模型技术在行业应用实践合集(1)》1、基于多模态智能引擎大模型知识库技术应用 2、饿了么垂域大模型EGPT训练与C端应用实践 3、金山云:大模型推动知识工作领域的创新与变革 4、超大规模集群下大语言模型训练的最佳实践 5、蚂蚁大模型存储加速实践
《大模型技术在行业应用实践合集(2)》1、大模型数据安全:从测评到实时检测的全流程实践 2、大模型原生应用产品设计的前沿探索 3、海天瑞声在大模型数据的探索与实践 4、类 Sora 开源架构模型训练实践 5、大模型 AI 训练的数据存储加速
《大模型技术在行业应用实践合集(3)》1、基于 AI 大模型生成微信小程序的探索与实践 2、教育大模型,说你行你才行 3、大模型赋能的数据资产平台构建实践 4、大规模微服务破局之道:合并编译 5、大规模工程及领域架构治理与服务架构合理性的度量
《大模型技术在行业应用实践合集(4)》
1、MoonBit 月兔:大语言模型时代的软件开发起点 2、AI 大模型技术在数据库 DevOps 的实践 3、大模型应用开发新范式 4、大模型赋能 DevOps,研发全环节提速 5、大模型技术在快手搜索的应用 6、快意大模型在短视频互动场景的应用探索
CPU和GPU研究框架合集

PCIe5.0, CXL, NVMe, NAND, DDR5, UFS4测试技术和工具白皮书Ver 7.0(1)

PCIe5.0, CXL, NVMe, NAND, DDR5, UFS4测试技术和工具白皮书Ver 7.0(2)

图解数据中心基础设施:PCIe总线和NVMe SSD测试讲座ver1.26

PCIe Gen 4&5总线协议分析和SSD测试工具白皮书Ver 6.20

龙芯LoongArch指令集全集
信创研究专题框架
《CXL论坛:CXL全球厂商方案合集》

1、AI时代“内存墙”问题愈发明显

AI 大模型的快速发展推动“算力”和“存力”需求快速增长,与此同时,对“运力”也提出了更高的需求。“运力”是指在计算和存储之间传输数据的能力,AI 时代,系统需要更大的运力,需要更高的带宽、更快的传输。

“内存墙”问题由来已久,在 AI 时代表现的愈发明显,“算力”和“运力”之间的差距越来越大。“内存墙”指内存的性能提升速度远低于处理器的性能提升速度,从而导致处理器无法充分发挥其计算能力。由于内存的读写速度相对较慢,处理器在等待数据从内存中读取或写入时会出现空闲状态,从而限制了系统的性能,即使增加处理器数量和核数,也无法有效提高整体的计算能力。Transformer 类的模型参数的数量呈现指数增长,每两年增加 410 倍,而 GPU 内存仅以每两年 2 倍的速度扩展。

2、CXL 高速互联应运而生,提高内存利用效率

CXL(Compute Express Link)技术是一种新型的高速互联技术,旨在提供更高的数据吞吐量和更低的延迟,同时实现内存共享、提高内存利用效率,为化解“内存墙”问题提出新的解决方案。它最初由英特尔、AMD 和其他公司联合推出,并得到了包括谷歌、微软等公司在内的大量支持。CXL 的目标主要是为了解决 CPU 和设备、设备和设备之间的内存鸿沟,解决内存分割造成的较大浪费、不便和性能下降。CXL 通过将计算和存储分离,形成内存池,从而能动态按需配置内存资源,提升效率。

3、CXL 技术优势明显

与 PCIe 技术相比,CXL 技术具有优势。1)CXL 延迟较低,通常为 10ns,而 PCIe的延迟为 100ns。2)CXL 支持内存一致性,一致性的缺乏限制了 PCIe 应用程序。3)CXL 地址空间可按定义缓存,PCIe 地址空间通常不可缓存。但相较于 PCIe 庞大且成熟的生态系统,CXL 目前应用并不广泛,仍有广阔的发展空间。

4、CXL 版本持续升级迭代

CXL 历经 5 个版本的升级发展,内存共享和设备的灵活性增强。CXL1.0 于 2019年 3 月发布,后历经 1.1、2.0、3.0 版本,2023 年 11 月,CXL 联盟发布了最新的CXL3.1 版本。随着 CXL 技术的不断演进,未来数据中心各个计算节点和内存节点的互联将更加快速、高效和灵活。

CXL1.0 及 1.1 版本归为一代标准,二者相比并没有较大的区别。CXL2.0 发布于2020 年,新增了切换、内存池化、按需内存分配、IDE(完整性和数据加密)功能。

CXL3.0 版本在三个关键领域进行重大改进。1)PCIe 协议由 PCIe5.0 上升到PCIe6.0,传输速率由 32GT/s 提升至 64GT/s;2)CXL3.0 可以支持更加灵活的 Switch拓扑;3)除了支持内存池化,CXL3.0 还进一步支持内存共享。

CXL3.1 新版本对横向扩展 CXL 进行了结构改进、增加了新的可信执行环境功能,并对内存扩展器进行了改进。1)支持使用全局集成内存(GIM)通过 CXL 结构进行主机间的通信,这可以大大提高系统性能。2)通过 CXL 对内存事务的直接点对点支持来增加 GPU 内存的使用效率,这对于处理大规模数据集和 AI 工作负载非常有帮助。

5、国际巨头纷纷加入CXL联盟

CXL 联盟由英特尔牵头成立,目前成员已经超过 255 个成员,涵盖了主要的 CPU、内存、存储和网络设备制造商。国际巨头纷纷加入 CXL 联盟,积极布局 CXL 技术,推出支持 CXL 技术的产品,助力 CXL 的发展。

6、CXL联盟定义了三种类型的设备

CXL 标准定义了三个协议:1)CXL.io 协议本质上是 PCIe 5.0 的改进,用于初始化、链接、设备发现和列举以及寄存器访问。2)CXL.cache 协议定义了主机和设备间的交互,允许连接的 CXL 设备以极低的延迟高效地缓存主机内存。3)CXL.mem 协议提供了主机处理器,使用加载和存储命令访问设备连接的内存。

CXL 联盟定义了三种类型的设备,分别支持不同的子协议。CXL.io 协议用于初始化和链接,所以必需获得所有 CXL 设备的支持,如果该协议发生故障,链接就无法运行。第一种设备用于智能 NIC 等设备。第二种设备用于带有内存的加速器,如 CPU、GPU、FPGA 等。第三种设备用于内存拓展和池化。

7、CXL市场空间广阔,DRAM占据主要份额

CXL 高速互联目前处于市场应用的早期阶段,未来有望迎来快速发展,采用 CXL协议服务器的占比持续提升。根据 Yole 的预测,到 2025 年,采用 CXL 协议的数据中心服务器占比达到 60%左右,到 2027 年,这一数据将接近 100%。Yole 预测到 2028年,CXL 市场总收入将超过 150 亿美元。

DRAM 占据 CXL 市场的主要份额,国际巨头纷纷进行布局。Yole 预计到 2028 年,DRAM 市场规模达到 125 亿美元,占到 CXL 市场规模的 79%。三星和海力士相继推出了采用 CXL 内存控制器的 CXL 内存模组。2023 年 5 月,三星电子推出其首款支持CXL2.0 的 128GB DRAM,加速下一代存储器解决方案的商用化进程。

下载链接
龙芯新架构:LoongArch与Linux内核

国产大模型:被低估的大模型“腾讯混元”

ArkTS框架:在ARM、RISC-V指令集架构上跑Openharmony应用
NPUCore:基于RV平台和Rust的小型竞赛操作系统的设计与优化
2024年度重磅AI技术革命
龙芯CPU技术研究报告合集
1、国产CPU生态建设者,工控、通用领域两开花 
2、国产CPU引领者,构建自主可控生态体系 
3、国产自主通用CPU核心供应商,步入发展黄金期 
4、领先国产CPU厂商,全面打造自主生态 
5、龙芯中科深度报告:龙芯指令集,世界第三极 
6、龙芯中科深度报告:自主创新最彻底国产CPU,构建独立生态迎产业良机 
7、深度报告:全自主CPU开启中国“芯时代” 
8、深耕CPU行业20余年,国产替代大有可为 
9、自主可控程度最高的国产CPU,新品放量在即,看好市占率提升
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
1、海光信息:国产巨无霸,引领“中国芯” 
2、国产CPU厂商领军者,进入快速增长期 
3、国产CPU领军,加速突破高端市场 
4、国产CPU领军,受益于行业信创加速,成长空间广阔 
5、国产高端处理器龙头,CPU+DCU齐赋能 
6、国产微处理器产业的领军者"
《海光CPU+DCU技术研究报告合集(下)》 
1、达梦与海光:聚焦信创新股中的软硬龙头 
2、计算机行业深度报告:曙光很近,海光不远,国产x86算力生态崛起 
3、进击的国产CPU和GPU领航者 
4、信创硬件龙头 
5、行业信创龙头,国产 CPU 之光 
6、专注服务器与数据中心,高端处理器企业乘风国产替代

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 47浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 136浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 105浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 66浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 47浏览
  •         霍尔传感器是根据霍尔效应制作的一种磁场传感器。霍尔效应是磁电效应的一种,这一现象是霍尔(A.H.Hall,1855—1938)于1879年在研究金属的导电机构时发现的。后来发现半导体、导电流体等也有这种效应,而半导体的霍尔效应比金属强得多,利用这现象制成的各种霍尔元件,广泛地应用于工业自动化技术、检测技术及信息处理等方面。霍尔效应是研究半导体材料性能的基本方法。通过霍尔效应实验测定的霍尔系数,能够判断半导体材料的导电类型、载流子浓度及载流子
    锦正茂科技 2024-12-10 11:07 64浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 70浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 84浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 74浏览
  •         在有电流流过的导线周围会感生出磁场,再用霍尔器件检测由电流感生的磁场,即可测出产生这个磁场的电流的量值。由此就可以构成霍尔电流、电压传感器。因为霍尔器件的输出电压与加在它上面的磁感应强度以及流过其中的工作电流的乘积成比例,是一个具有乘法器功能的器件,并且可与各种逻辑电路直接接口,还可以直接驱动各种性质的负载。因为霍尔器件的应用原理简单,信号处理方便,器件本身又具有一系列的du特优点,所以在变频器中也发挥了非常重要的作用。  &nb
    锦正茂科技 2024-12-10 12:57 76浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 101浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 78浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 69浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦