标准化:Chiplet与UCIe技术

智能计算芯世界 2023-10-07 07:32

本文来自“2023新型算力中心调研报告(2023)”。更多内容参考“《海光CPU+DCU技术研究报告合集(上)》 ”,“《海光CPU+DCU技术研究报告合集(下)》 ”和“龙芯CPU技术研究报告合集”。

Chiplet 的优势已经获得了充分的验证,接下来的问题就是通用化、标准化。通过标准化,来自不同供应商的芯片可以更容易地实现封装内的互联,在这个前提下,部分 IP 可以固化为芯片,而不再需要分别集成到不同客户的芯片中,也不需要适配太多版本的生产工艺。

在此愿景之下,2022 年 3 月,通用处理器市场的核心玩家 Intel、AMD、Arm 等联合发布了新的互联标准 UCIe(Universal Chiplet Interconnect Express,通用小芯片互连通道,希望解决 Chiplet 的行业标准问题。
由于标准的主导者与 PCIe 和 CXL(Compute Express Link已有千丝万缕的关系,因此,UCIe 非常强调与 PCIe/CXL 的协同,在协议层本地端提供 PCIe 和 CXL 协议映射。

与 CXL 的协同,说明 UCIe 的目标不仅仅是解决芯片制造中的互联互通问题,而是希望芯片与设备、设备与设备之间的交互是无缝的。在 UCIe1.0 标准中,即展现了两种层面的应用:Chiplet(In package和Rackspace(Off package

△ UCIe 规划的机架连接交给了 CXL
过去十年间,CPU 的核心数量从 8~12 个的水平,增长到了 60 乃至 96 核,Arm 已有 192 核的产品,而每插槽 CPU 的内存通道数仅从 4 通道增加到 8 或 12 通道。每通道的内存在此期间也经过了三次大的迭代,带宽大概增加 1.5~2 倍,存储密度大约为 4 倍。从发展趋势来看,每个 CPU 核心所能分配到的内存通道数量在明显下降,每核心可以分配的内存容量和内存带宽其实也有所下降。这是内存墙的一种表现形式,导致 CPU 核心因为不能充分得到数据来处于满负荷的运行状态,会导致整体计算效率下降。

为什么增加内存通道如此缓慢?因为增加内存通道不仅仅需要增加芯片面积,还需要扩展对外接口,在电气连接方式没有根本性改变的情况下,触点数量的大量增加会导致 CPU 封装面积剧增。10 年前的英特尔至强(Intel Xeon处理器的 LGA2011 封装尺寸为 52.5mm×45.0mm(毫米,当前 Xeon 所用 LGA 4677 封装尺寸为 77.5mm×56.5mm,触点数量增加了 1.33 倍,封装面积增加了 1.85 倍。
而 AMD 第四代 EPYC 启用的新封装 SP5 更大,有 6096 个触点,封装面积达到 75.4mm×72mm,跟一张扑克牌差不多大了,毕竟它的内存通道数量达到了 12 个。为了与 AMD 和 Arm 继续“核战”,英特尔代号 Granite Rapids 和 Sierra Forest 的下一代 Xeon 将启用 LGA 7529 插槽,尺寸 105mm×70.5mm。作为参考,iPhone 4的正面尺寸是 115.2mm×58.6mm,iPhone 8 则为 138.4mm×67.3mm。
同时,主板上内存相关的走线数量和距离也需要相应增加,保证信号质量的难度加大。CPU 插槽面积增加、内存槽数量增加,还受到主板面积的限制。按照英特尔和 AMD 的通用处理器的这个发展趋势, 双路服务器的主板布局将会愈加困难,其市场份额可能会逐步下降。

通过 CXL 扩展内存,可以将 CPU 与内存从沿革多年的紧耦合关系变为松耦合,利用 PCIe/CXL 通道的物理带宽增加内存总带宽,而不仅仅限于内存控制器自身的通道总数(即使前者的带宽相对较低,但也是增量,利用机箱的立体空间容纳更大容量的内存,而不再受主板面积的约束。

△ CXL 内存

考虑到人工智能,尤其是机器学习领域的发展,模型容量在过去 5 年间大致增加了 50 倍,内存容量的扩展方式确实值得突破一下。不过这也不是一蹴而就的,毕竟第四代英特尔至强可扩展处理器每插槽 CPU 只支持 4 个 CXL 设备,给计算卡之类的一分就没了。所以也就不用纠结它暂时没有宣布支持 CXL Type 3 Device(Memory Buffer

在第四代可扩展至强处理器平台上,如果支持 CXL 1.1 的加速卡、计算卡 、智能网卡能够提供比 PCIe 5.0 更好的性能,稍微拉近跟 SMX 接口(NVLink的性能落差,那就非常开心了。而 AMD 则反过来,处理器大核确实多,而且不论单路还是双路处理器,内存槽上限都是 24 条,如果不优先另辟蹊径扩展内存容量,每个核心能够分配到的内存资源其实反而会落了下风,补短板看起来更迫切。但是,AMD 同样也会面临内存扩展与计算卡抢PCIe 通道数量的问题。

总之,不论这两家通用处理器具体各怀啥心思,CXL 的第一轮普及工作就是不尽如人意,顾此失彼。甚至现在还不到纠结内存扩展的时候,即使 CXL 内存模组已然是各种技术论坛中样品最接近现实的 CXL 设备。在这个阶段,解决 CXL 设备的有无问题,借机逐步导入 EDSFF,初步形成生态环境,就算是成功。至于内存的大事情,且得看下一代平台以及更新版本的 CXL。

△ CXL 的本地内存扩展

到了 CXL 2.0,通过 CXL Switch,内存扩展将可以跨 CPU 实现。这个阶段将构建机柜级的资源池化。这其中的好处多多,此处主要集中在云服务的需求角度去看。

微软曾调研了 Azure 公有云数据中心的内存使用情况,其结论是:有约 50% 的服务器的实际内存利用率不到一半。这是由于内存的分配是与 CPU 核心绑定的,当客户按照预设的实例配置租用资源时,每个核心便搭配了固定容量的内存,譬如 2GB。当主机的 CPU 核心数量被分配完毕后,未被搭配的内存便被闲置了。考虑到预先配置的内存容量相对核心数量必然是超配的,譬如 56 核的至强,搭配 128GB 内存,每个实例配 2GB 内存的话,那注定有 128-2×56=16 GB 内存将会被闲置。如果服务器核心未被充分利用,被闲置的内存将会更多。而运行中的实例,其实际内存占用率通常也不高。由此,无从分配的、未被分配的、分配但未充分使用的,这三种性质的浪费叠加之后,主机的实际内存浪费相当惊人。

由此,微软提出通过内存池来解决这个问题。各主机搭配容量较少的内存,其余内存放入内存资源池。当 CPU 本地内存不足时,再到内存池调用。这虽然增加了一些访问延迟,但会降低内存的总成本。如果减少 10% 的内存搭配数量,对于大型数据中心而言也是数以亿计的资金节约。微软预计通过 CXL 和内存池化,可以为云数据中心减少 4~5% 的成本。

除了节约总内存投入,内存池化还可以带来内存持久化、内存故障热迁移等等新的功能特性以供业界进一步挖掘,此处暂不展开。

CXL 的完整愿景,需要到 CXL 3.0 规范才能实现。

首先是带宽,CXL 3.0 基于 PCIe 6.0,更换了 PCIe 沿革多年的 NRZ 调制方案,变为 PAM-4 脉冲幅度调制编码,在电气特性变化不大的情况下,链路带宽翻倍,从 32GT/s 提升到了 64GT/s。

其次,CXL3.0 增加了对二层交换机的支持,也就是叶脊(Leaf-Spine网络架构,资源池化也不再局限于内存,而是可以实现 CPU 资源池、加速器资源池、网卡资源池等。
△ CXL 3.0 将改变资源的组织方式

CXL 2.0 实现的是机柜内的池化,CXL 3.0 除了可以在一个机柜内实现计算资源和存储资源的解耦和池化,还可以在多个机柜之间建立更大的资源池。跨主机、跨机柜调度规模巨大的计算资源,已经是超算的范畴了。然后,CXL 3.0 网络可以支持 4096 个 CXL 节点!单纯从数量上看,这远远超过了 NVLink 网络 256 个节点的规模(见下一章。这将是 CXL 对私有但标榜高性能的 NVLink 最有力的挑战。当然,CXL 3.0 依旧暂时还未落地,而 NVIDIA 新一代的系统已经正式发布了。二者在机柜互联方面的带宽远超 400G InfiniBand(IB)或者以太网,实际运行效率都是非常值得期待的。

下载链接:
《华为:迈向智能世界白皮书2023版(合集)》
1、迈向智能世界白皮书2023版(计算)
2、迈向智能世界白皮书2023版(云计算) 3、迈向智能世界白皮书2023版(数字金融) 4、迈向智能世界白皮书2023版(数据通信) 5、迈向智能世界白皮书2023版(数据存储)

《FMS 2023闪存峰会CXL合集(1)》

《FMS 2023闪存峰会CXL合集(2)》
下一代超融合架构白皮书
《46+份超融合技术及报告合集》
《数据中心技术合集》
1、数据中心超融合以太技术白皮书
2、数据中心可持续发展能力要求 

3、数据中心绿色设计白皮书(2023) 

4、新型数据中心高安全技术体系白皮书

异构融合计算技术白皮书
超融合数据中心网络
中国联通的开放网络研究与实践
中国联通开放硬件网络设备白皮书
白牌网络及交换机白皮书汇总
1、掘金云数据中心白盒化趋势.pdf
2、商用交换芯片SDN支持现状分析.pdf
3、未来网络白皮书——白盒交换机技术白皮书.pdf
4、协议无关交换机架构技术与应用白皮书.pdf
5、中国联通开放硬件网络设备白皮书.pdf
6、中兴通讯CO重构技术白皮书.pdf
《2022网信自主创新调研报告(2023)》
《2022中国物联网行业研究报告》
2021年中国物联网云平台发展研究报告
《算力网络技术合集(1)》
1、算力网络关键技术及发展挑战分析 2、中国算力网络全景洞察白皮书 3、算力感知网络CAN技术白皮书(中国移动) 4、算力时代网络运力研究白皮书 5、数字中国建设关键基础设施,算力网络时代来临(2023) 6、算力网络技术白皮书
《算力网络技术合集(2)》
7、算力网络场景下SLA约束的能耗优化微服务调度策略(2023) 8、网络算力接入时延圈绘制展示研究和实践(2023) 9、浅析面向算力时代全光底座的构建 10、云渲染任务智能算力调度策略研究(2023) 11、算力网络推进金融元宇宙落地(2023) 12、全光算力网络关键技术及建设策略研究(2023)

数据中心绿色设计白皮书(2023)

存储系统性能和可靠性基础知识

云基建专题:AI驱动下光模块趋势展望及弹性测试

精华:数据库系统的分类和评测研究

可重构计算:软件可定义的计算引擎

近存及存内计算专题简介

集装箱冷板式液冷数据中心技术规范

浸没式液冷发展迅速,“巨芯冷却液”实现国产突破

两相浸没式液冷—系统制造的理想实践

浸没液冷服务器可靠性白皮书

天蝎5.0浸没式液冷整机柜技术规范

AIGC加速芯片级液冷散热市场爆发

某液冷服务器性能测试台的液冷系统设计

《智能存储与磁盘故障预测合集》

《内存技术应用研究及展望合集》


本号资料全部上传至知识星球,加入全栈云技术知识星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。



温馨提示:扫描二维码关注“全栈云技术架构”公众号,点击阅读原文进入“全栈云技术知识”星球获取10000+技术资料。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 158浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 23浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 21浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 16浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 26浏览
  • 车身域是指负责管理和控制汽车车身相关功能的一个功能域,在汽车域控系统中起着至关重要的作用。它涵盖了车门、车窗、车灯、雨刮器等各种与车身相关的功能模块。与汽车电子电气架构升级相一致,车身域发展亦可以划分为三个阶段,功能集成愈加丰富:第一阶段为分布式架构:对应BCM车身控制模块,包含灯光、雨刮、门窗等传统车身控制功能。第二阶段为域集中架构:对应BDC/CEM域控制器,在BCM基础上集成网关、PEPS等。第三阶段为SOA理念下的中央集中架构:VIU/ZCU区域控制器,在BDC/CEM基础上集成VCU、
    北汇信息 2025-01-03 16:01 173浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 29浏览
  • 影像质量应用于多个不同领域,无论是在娱乐、医疗或工业应用中,高质量的影像都是决策的关键基础。清晰的影像不仅能提升观看体验,还能保证关键细节的准确传达,例如:在医学影像中,它对诊断结果有着直接的影响!不仅如此,影像质量还影响了:▶ 压缩技术▶ 存储需求▶ 传输效率随着技术进步,影像质量的标准不断提高,对于研究与开发领域,理解并提升影像质量已成为不可忽视的重要课题。在图像处理的过程中,硬件与软件除了各自扮演着不可或缺的基础角色,有效地协作能够确保图像处理过程既高效又具有优异的质量。软硬件各扮演了什么
    百佳泰测试实验室 2025-01-03 10:39 139浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 165浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 161浏览
  • 本文继续介绍Linux系统查看硬件配置及常用调试命令,方便开发者快速了解开发板硬件信息及进行相关调试。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。查看系统版本信息查看操作系统版本信息root@ido:/# cat /etc/*releaseDISTRIB_ID=UbuntuDISTRIB_RELEASE=20.04DISTRIB_CODENAME=focalDIS
    Industio_触觉智能 2025-01-03 11:37 138浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 121浏览
  • 在测试XTS时会遇到修改产品属性、SElinux权限、等一些内容,修改源码再编译很费时。今天为大家介绍一个便捷的方法,让OpenHarmony通过挂载镜像来修改镜像内容!触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,树莓派卡片电脑设计,支持开源鸿蒙OpenHarmony3.2-5.0系统,适合鸿蒙开发入门学习。挂载镜像首先,将要修改内容的镜像传入虚拟机当中,并创建一个要挂载镜像的文件夹,如下图:之后通过挂载命令将system.img镜像挂载到sys
    Industio_触觉智能 2025-01-03 11:39 113浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦