标准化:Chiplet与UCIe技术

智能计算芯世界 2023-10-07 07:32

本文来自“2023新型算力中心调研报告(2023)”。更多内容参考“《海光CPU+DCU技术研究报告合集(上)》 ”,“《海光CPU+DCU技术研究报告合集(下)》 ”和“龙芯CPU技术研究报告合集”。

Chiplet 的优势已经获得了充分的验证,接下来的问题就是通用化、标准化。通过标准化,来自不同供应商的芯片可以更容易地实现封装内的互联,在这个前提下,部分 IP 可以固化为芯片,而不再需要分别集成到不同客户的芯片中,也不需要适配太多版本的生产工艺。

在此愿景之下,2022 年 3 月,通用处理器市场的核心玩家 Intel、AMD、Arm 等联合发布了新的互联标准 UCIe(Universal Chiplet Interconnect Express,通用小芯片互连通道,希望解决 Chiplet 的行业标准问题。
由于标准的主导者与 PCIe 和 CXL(Compute Express Link已有千丝万缕的关系,因此,UCIe 非常强调与 PCIe/CXL 的协同,在协议层本地端提供 PCIe 和 CXL 协议映射。

与 CXL 的协同,说明 UCIe 的目标不仅仅是解决芯片制造中的互联互通问题,而是希望芯片与设备、设备与设备之间的交互是无缝的。在 UCIe1.0 标准中,即展现了两种层面的应用:Chiplet(In package和Rackspace(Off package

△ UCIe 规划的机架连接交给了 CXL
过去十年间,CPU 的核心数量从 8~12 个的水平,增长到了 60 乃至 96 核,Arm 已有 192 核的产品,而每插槽 CPU 的内存通道数仅从 4 通道增加到 8 或 12 通道。每通道的内存在此期间也经过了三次大的迭代,带宽大概增加 1.5~2 倍,存储密度大约为 4 倍。从发展趋势来看,每个 CPU 核心所能分配到的内存通道数量在明显下降,每核心可以分配的内存容量和内存带宽其实也有所下降。这是内存墙的一种表现形式,导致 CPU 核心因为不能充分得到数据来处于满负荷的运行状态,会导致整体计算效率下降。

为什么增加内存通道如此缓慢?因为增加内存通道不仅仅需要增加芯片面积,还需要扩展对外接口,在电气连接方式没有根本性改变的情况下,触点数量的大量增加会导致 CPU 封装面积剧增。10 年前的英特尔至强(Intel Xeon处理器的 LGA2011 封装尺寸为 52.5mm×45.0mm(毫米,当前 Xeon 所用 LGA 4677 封装尺寸为 77.5mm×56.5mm,触点数量增加了 1.33 倍,封装面积增加了 1.85 倍。
而 AMD 第四代 EPYC 启用的新封装 SP5 更大,有 6096 个触点,封装面积达到 75.4mm×72mm,跟一张扑克牌差不多大了,毕竟它的内存通道数量达到了 12 个。为了与 AMD 和 Arm 继续“核战”,英特尔代号 Granite Rapids 和 Sierra Forest 的下一代 Xeon 将启用 LGA 7529 插槽,尺寸 105mm×70.5mm。作为参考,iPhone 4的正面尺寸是 115.2mm×58.6mm,iPhone 8 则为 138.4mm×67.3mm。
同时,主板上内存相关的走线数量和距离也需要相应增加,保证信号质量的难度加大。CPU 插槽面积增加、内存槽数量增加,还受到主板面积的限制。按照英特尔和 AMD 的通用处理器的这个发展趋势, 双路服务器的主板布局将会愈加困难,其市场份额可能会逐步下降。

通过 CXL 扩展内存,可以将 CPU 与内存从沿革多年的紧耦合关系变为松耦合,利用 PCIe/CXL 通道的物理带宽增加内存总带宽,而不仅仅限于内存控制器自身的通道总数(即使前者的带宽相对较低,但也是增量,利用机箱的立体空间容纳更大容量的内存,而不再受主板面积的约束。

△ CXL 内存

考虑到人工智能,尤其是机器学习领域的发展,模型容量在过去 5 年间大致增加了 50 倍,内存容量的扩展方式确实值得突破一下。不过这也不是一蹴而就的,毕竟第四代英特尔至强可扩展处理器每插槽 CPU 只支持 4 个 CXL 设备,给计算卡之类的一分就没了。所以也就不用纠结它暂时没有宣布支持 CXL Type 3 Device(Memory Buffer

在第四代可扩展至强处理器平台上,如果支持 CXL 1.1 的加速卡、计算卡 、智能网卡能够提供比 PCIe 5.0 更好的性能,稍微拉近跟 SMX 接口(NVLink的性能落差,那就非常开心了。而 AMD 则反过来,处理器大核确实多,而且不论单路还是双路处理器,内存槽上限都是 24 条,如果不优先另辟蹊径扩展内存容量,每个核心能够分配到的内存资源其实反而会落了下风,补短板看起来更迫切。但是,AMD 同样也会面临内存扩展与计算卡抢PCIe 通道数量的问题。

总之,不论这两家通用处理器具体各怀啥心思,CXL 的第一轮普及工作就是不尽如人意,顾此失彼。甚至现在还不到纠结内存扩展的时候,即使 CXL 内存模组已然是各种技术论坛中样品最接近现实的 CXL 设备。在这个阶段,解决 CXL 设备的有无问题,借机逐步导入 EDSFF,初步形成生态环境,就算是成功。至于内存的大事情,且得看下一代平台以及更新版本的 CXL。

△ CXL 的本地内存扩展

到了 CXL 2.0,通过 CXL Switch,内存扩展将可以跨 CPU 实现。这个阶段将构建机柜级的资源池化。这其中的好处多多,此处主要集中在云服务的需求角度去看。

微软曾调研了 Azure 公有云数据中心的内存使用情况,其结论是:有约 50% 的服务器的实际内存利用率不到一半。这是由于内存的分配是与 CPU 核心绑定的,当客户按照预设的实例配置租用资源时,每个核心便搭配了固定容量的内存,譬如 2GB。当主机的 CPU 核心数量被分配完毕后,未被搭配的内存便被闲置了。考虑到预先配置的内存容量相对核心数量必然是超配的,譬如 56 核的至强,搭配 128GB 内存,每个实例配 2GB 内存的话,那注定有 128-2×56=16 GB 内存将会被闲置。如果服务器核心未被充分利用,被闲置的内存将会更多。而运行中的实例,其实际内存占用率通常也不高。由此,无从分配的、未被分配的、分配但未充分使用的,这三种性质的浪费叠加之后,主机的实际内存浪费相当惊人。

由此,微软提出通过内存池来解决这个问题。各主机搭配容量较少的内存,其余内存放入内存资源池。当 CPU 本地内存不足时,再到内存池调用。这虽然增加了一些访问延迟,但会降低内存的总成本。如果减少 10% 的内存搭配数量,对于大型数据中心而言也是数以亿计的资金节约。微软预计通过 CXL 和内存池化,可以为云数据中心减少 4~5% 的成本。

除了节约总内存投入,内存池化还可以带来内存持久化、内存故障热迁移等等新的功能特性以供业界进一步挖掘,此处暂不展开。

CXL 的完整愿景,需要到 CXL 3.0 规范才能实现。

首先是带宽,CXL 3.0 基于 PCIe 6.0,更换了 PCIe 沿革多年的 NRZ 调制方案,变为 PAM-4 脉冲幅度调制编码,在电气特性变化不大的情况下,链路带宽翻倍,从 32GT/s 提升到了 64GT/s。

其次,CXL3.0 增加了对二层交换机的支持,也就是叶脊(Leaf-Spine网络架构,资源池化也不再局限于内存,而是可以实现 CPU 资源池、加速器资源池、网卡资源池等。
△ CXL 3.0 将改变资源的组织方式

CXL 2.0 实现的是机柜内的池化,CXL 3.0 除了可以在一个机柜内实现计算资源和存储资源的解耦和池化,还可以在多个机柜之间建立更大的资源池。跨主机、跨机柜调度规模巨大的计算资源,已经是超算的范畴了。然后,CXL 3.0 网络可以支持 4096 个 CXL 节点!单纯从数量上看,这远远超过了 NVLink 网络 256 个节点的规模(见下一章。这将是 CXL 对私有但标榜高性能的 NVLink 最有力的挑战。当然,CXL 3.0 依旧暂时还未落地,而 NVIDIA 新一代的系统已经正式发布了。二者在机柜互联方面的带宽远超 400G InfiniBand(IB)或者以太网,实际运行效率都是非常值得期待的。

下载链接:
《华为:迈向智能世界白皮书2023版(合集)》
1、迈向智能世界白皮书2023版(计算)
2、迈向智能世界白皮书2023版(云计算) 3、迈向智能世界白皮书2023版(数字金融) 4、迈向智能世界白皮书2023版(数据通信) 5、迈向智能世界白皮书2023版(数据存储)

《FMS 2023闪存峰会CXL合集(1)》

《FMS 2023闪存峰会CXL合集(2)》
下一代超融合架构白皮书
《46+份超融合技术及报告合集》
《数据中心技术合集》
1、数据中心超融合以太技术白皮书
2、数据中心可持续发展能力要求 

3、数据中心绿色设计白皮书(2023) 

4、新型数据中心高安全技术体系白皮书

异构融合计算技术白皮书
超融合数据中心网络
中国联通的开放网络研究与实践
中国联通开放硬件网络设备白皮书
白牌网络及交换机白皮书汇总
1、掘金云数据中心白盒化趋势.pdf
2、商用交换芯片SDN支持现状分析.pdf
3、未来网络白皮书——白盒交换机技术白皮书.pdf
4、协议无关交换机架构技术与应用白皮书.pdf
5、中国联通开放硬件网络设备白皮书.pdf
6、中兴通讯CO重构技术白皮书.pdf
《2022网信自主创新调研报告(2023)》
《2022中国物联网行业研究报告》
2021年中国物联网云平台发展研究报告
《算力网络技术合集(1)》
1、算力网络关键技术及发展挑战分析 2、中国算力网络全景洞察白皮书 3、算力感知网络CAN技术白皮书(中国移动) 4、算力时代网络运力研究白皮书 5、数字中国建设关键基础设施,算力网络时代来临(2023) 6、算力网络技术白皮书
《算力网络技术合集(2)》
7、算力网络场景下SLA约束的能耗优化微服务调度策略(2023) 8、网络算力接入时延圈绘制展示研究和实践(2023) 9、浅析面向算力时代全光底座的构建 10、云渲染任务智能算力调度策略研究(2023) 11、算力网络推进金融元宇宙落地(2023) 12、全光算力网络关键技术及建设策略研究(2023)

数据中心绿色设计白皮书(2023)

存储系统性能和可靠性基础知识

云基建专题:AI驱动下光模块趋势展望及弹性测试

精华:数据库系统的分类和评测研究

可重构计算:软件可定义的计算引擎

近存及存内计算专题简介

集装箱冷板式液冷数据中心技术规范

浸没式液冷发展迅速,“巨芯冷却液”实现国产突破

两相浸没式液冷—系统制造的理想实践

浸没液冷服务器可靠性白皮书

天蝎5.0浸没式液冷整机柜技术规范

AIGC加速芯片级液冷散热市场爆发

某液冷服务器性能测试台的液冷系统设计

《智能存储与磁盘故障预测合集》

《内存技术应用研究及展望合集》


本号资料全部上传至知识星球,加入全栈云技术知识星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。



温馨提示:扫描二维码关注“全栈云技术架构”公众号,点击阅读原文进入“全栈云技术知识”星球获取10000+技术资料。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 文/Leon编辑/侯煜‍2008至2021年间,创维以高举高打的凌厉之势,果断进行投资,一度成为中国市场大屏OLED产业的旗手,引领着显示技术的发展方向。但近年来,创维在 OLED 领域的发展轨迹却逐渐模糊,态度陷入暧昧不明的混沌状态。究其根源,一方面,创维对过往的押注难以割舍,在技术革新与市场变化的浪潮中,不愿轻易推翻曾经的战略布局;另一方面,早期在大屏OLED 技术研发、市场推广等环节投入的巨额资金,已然形成沉没成本,极大地限制了创维在显示技术路线上的重新抉择。但市场瞬息万变,为适应激烈的行
    华尔街科技眼 2025-03-05 20:03 147浏览
  • 概述随着工业4.0的深入推进,制造业对自动化和智能化的需求日益增长。传统生产线面临空间不足、效率低下、灵活性差等问题,尤其在现有工厂改造项目中,如何在有限空间内实现高效自动化成为一大挑战。此次项目的客户需要在现有工厂基础上进行改造,空间有限。为此,客户选择了SCARA型线性轴机器人作为执行设备。然而,SCARA机器人的高效运行离不开强大的控制系统支持。宏集凭借其先进的智能控制系统,为客户提供了高效、灵活的自动化解决方案,确保SCARA机器人在有限空间内发挥最大效能。一、客户需求在此次改造项目中,
    宏集科技 2025-03-06 11:27 120浏览
  • 服务器应用环境与客户需求PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,P
    百佳泰测试实验室 2025-03-06 17:00 47浏览
  • 文/Leon编辑/cc孙聪颖2025年全国两会进行时,作为“十四五”规划收官之年,本届两会释放出坚定目标、稳中求进、以进促稳等信号。其中,企业家们的建议备受关注,关系到民营经济在2025年的走向。作为国内科技制造业的“老兵”,全国人大代表、TCL集团创始人及董事长李东生在本届两会中提出三份代表建议,包括《关于优化中国科技制造业融资环境的建议》、《关于加强AI深度伪造欺诈管理的建议》和《关于降低灵活就业人员社会保险参保门槛的建议》,表现出对科技制造、AI发展和劳动者保障方面的关注。会后,李东生接受
    华尔街科技眼 2025-03-06 19:41 44浏览
  • ASL6328芯片支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。ASL6328 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电
    QQ1540182856 2025-03-06 14:26 86浏览
  • 随着自动驾驶技术的迅猛发展,构建高保真、动态的仿真场景成为了行业的迫切需求。传统的三维重建方法在处理复杂场景时常常面临效率和精度的挑战。在此背景下,3D高斯点阵渲染(3DGS)技术应运而生,成为自动驾驶仿真场景重建的关键突破。一、3DGS技术概述与原理1、3DGS的技术概述3DGS是一种基于3D高斯分布的三维场景表示方法。通过将场景中的对象转化为多个3D高斯点,每个点包含位置、协方差矩阵和不透明度等信息,3DGS能够精确地表达复杂场景的几何形状和光照特性。与传统的神经辐射场(NeRF)方法相比,
    康谋 2025-03-06 13:17 120浏览
  • 多人同时共享相同无线网络,以下场景是否是您熟悉的日常?姐姐:「妈~我在房间在线上课,影音一直断断续续的怎么上课啊!」奶奶:「媳妇啊~我在在线追剧,影片一直卡卡的,实在让人生气!」除此之外,同时间有老公在跟客户开在线会议,还有弟弟在玩在线游戏,而妈妈自己其实也在客厅追剧,同时间加总起来,共有五个人同时使用这个网络!我们不论是在家里、咖啡厅、餐厅、商场或是公司,都会面临到周遭充斥着非常多的无线路由器(AP),若同时间每位使用者透过手机、平板或是笔电连接到相同的一个网络,可想而知网络上的壅塞及相互干扰
    百佳泰测试实验室 2025-03-06 16:50 42浏览
  • 引言嘿,各位电动汽车的爱好者们!咱们今儿个就来聊聊电动汽车里那些“看不见,摸不着”,但又至关重要的零部件。要说电动汽车这玩意儿,那可真是科技含量满满,各种高精尖的技术都往里堆。但要让这些高科技玩意儿协同工作,稳定可靠地运转,那就得靠一些幕后英雄,比如说——电容器。你可能会想,电容器?这不就是电子电路里常见的元件嘛,能有多重要? 哎,你可别小瞧了这小小的电容器。在电动汽车的心脏地带——高压直流转换器(DC-DC转换器)里,车规级的电容器那可是扮演着举足轻重的角色。 今天,咱们就聚焦分析三星电机车规
    贞光科技 2025-03-05 17:02 90浏览
  • 在六西格玛项目中,团队的选择往往决定了最终的成败。合适的团队成员不仅能推动项目顺利进行,更能确保最终成果符合预期。因此,组建六西格玛团队时,必须挑选最合适的人才,确保他们具备必要的能力和特质。团队主管的关键特质每个精益六西格玛项目都需要一位主管来带领团队。他们不仅需要具备领导力,还要能够分析数据、制定策略,并与管理层和团队成员高效沟通。团队主管的核心职责包括:领导团队行动:能够激励成员,确保团队朝着既定目标前进。数据分析能力:精通数据处理和分析,能基于数据做出决策。沟通协调:能够在管理层和团队之
    优思学院 2025-03-06 12:51 98浏览
  • 在当今竞争激烈的市场环境中,企业不仅需要优化成本,还需积极响应国家的能源政策,减少对环境的影响。提升工业能源效率正是实现这一双重目标的关键。中国近年来大力推进“双碳”目标(碳达峰、碳中和),并出台了一系列政策鼓励企业节能减排。通过宏集CODRA的Panorama解决方案,企业可以获得专为这一目标设计的SCADA工具,实时监控和调整所有工业设备的能耗。特别是其中的能源管理模块,能够有效分析数据,预防故障,避免能源浪费。Panorama的优化技术宏集CODRA提供的解决方案,尤其是Panorama
    宏集科技 2025-03-06 11:25 115浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦