UCIe封装与异构算力集成

智能计算芯世界 2023-11-06 07:32

本文来自“2023新型算力中心调研报告(2023)”。更多内容参考“《海光CPU+DCU技术研究报告合集(上)》 ”,“《海光CPU+DCU技术研究报告合集(下)》 ”和“龙芯CPU技术研究报告合集”,“UCIe白皮书(终版)”。

UniversalChiplet Interconnect Express (UCIe)® 是一个开放的行业互连标准,可以实现小芯片之间的封装级互连,具有高带宽、低延迟、经济节能的优点。能够满足整个计算领域,包括云端、边缘端、企业、5G、汽车、高性能计算和移动设备等,对算力、内存、存储和互连不断增长的需求。UCIe 具有封装集成不同Die的能力,这些Die可以来自不同的晶圆厂、采用不同的设计和封装方式。

 

实现Chiplets封装集成的动机有很多。为了满足不断增长的性能需求,芯片面积不断增加,有些设计甚至会超出掩模版面积的限制,比如具有数百个核心的多核 CPU,或扇出非常大的交换[曹1] 电路(Switch)。即使在设计不超过面积限制的情况下,改用多个小芯片集成封装的方式也更有利于提升良率,实现芯片的跨市场复用。另外,多个相同Die的集成封装能够适用于大规模的应用场景。




图1:UCIe开启开放式封装级生态系统交付平台


实现Chiplet封装集成的另一个动机是为了从产品和项目的角度降低整体投资组合成本,并抢占产品市场。例如,图 1 所示的处理器核心可以最先进的工艺节点,用更高的成本换取极致的节能性能,而内存和 I/O 控制器功能可以复用已经建立好的旧工艺节点(n -1 或 n-2)。采用这种划分方式,可以减小Die的面积,从而提高产量。如图 2 所示,跨工艺节点的 IP 移植成本很高,而且随着工艺节点的进步,该成本增长非常迅速。若采用多Die集成模式,由于Die的功能不变,我们不必对其IP进行移植,便可在节省成本的同时实现抢占市场的可能。Chiplet封装集成模式还可以使用户能够自主选择Die的数量和类型,从而针对不同的产品类型做出不同的权衡。例如,用户可以根据自己的具体需求挑选任意数量的计算、内存和I/O Die,并无需针对具体需求进行Die的自主设计,这有利于降低产品的SKU成本。

 

Chiplet的封装集成允许厂商能够以快速且经济的方式提供定制解决方案。如图 1 所示,不同的应用场景可能需要不同的计算加速能力,但可以使用同一种核心、内存和 I/O。Chiplet的封装集成还允许厂商根据功能需求对不同的功能单元应用不同的工艺节点,并实现共同封装。例如,内存、逻辑、模拟和光学器件可以被应用不同的工艺技术,然后和Chiplet封装到一起。由于相比板级互连,封装级互连具有线长更短、布线更紧密的优点,因此,像内存访问这种需要高带宽的应用场景都可以以封装级集成的方式实现(例如HBM,High Bandwidth Memory)。

 

UCIe是封装互连的战略性成果,它以前瞻性的方式渗入各种应用模型,并蓄势待发,志在扭转行业未来。


UCIe 的 In package 本质就是将整个芯片封装视作主板,在基板上组装大量的芯粒,包括各种处理器、收发器,以及硬化的 IP。整体而言,UCIe 是一个基于并行连接的高性能系统接口,主要是面向 PCIe/CXL 设备(芯片)的“ 组 装”,如 CPU、GPU、DSA、FPGA、ASIC 等的互联。随着人工智能时代的到来,异构计算已经是显学,原则上,只要功率密度允许,这些异构计算单元的高密度集成可以交给 UCIe 完成。

△ UCIe的In package 本质就是将整个芯片封装视作主板

除了集成度的考虑,标准化的 Chiplet 也带来了功能和成本的灵活性,对于不需要的单元,在制造时不参与封装即可——而对于传统的处理器而言,对部分用户无用的单元常常成为无用的“暗硅”,意味着成本的浪费。一个典型的例子就是 DSA,如英特尔第四代可扩展至强处理器中的若干加速器,用户可以付费开启,但是,如果用户不付费呢?这些 DSA 其实已经制造出来了。

UCIe 包括协议层(Protocol Layer)、适配层(Adapter Layer)和物理层(Physical Layer)。协议层支持 PCIe 6.0、CXL 2.0 和 CXL 3.0,也支持用户自定义。根据不同的的封装等级,UCIe 也有不同的 Package module。通过用 UCIe 的适配层和 PHY 来替换 PCIe/CXL 的 PHY 和数据包,就可以实现更低功耗和性能更优的 Die-to-Die 互连接口。

△ UCIe 对两种封装的划分

UCIe 考虑了两种不同等级的封装:标准封装(Standard Package)和先进封装(Advanced Package),凸块间距、传输距离和能耗将有数量级的差异。譬如对于先进封装,凸块间距(Bump Pitch)为 25~55μm,对应的是采用硅中介层为代表的 2.5D 封装技术的特点。以英特尔的 EMIB 为例,当前的凸块间距即为 50μm 左右,未来将向 25μm,甚至 10μm 演进。台积电的 InFO、CoWoS 也会有类似的规格和演进。而标准封装(2D)的规格对应的是目前应用最为广泛的有机载板。

△ 英特尔先进封装的凸块间距演进

不同封装的信号密度也是有本质差异的,如标准封装模块对应的是 16 对数据线(TX、RX),而高级封装模块包含 64 对数据线,每 32 个数据管脚还提供 2 个额外的管脚用于 Lane 修复。如果需要更大的带宽,可以扩展更多的模块,且模块的频率是可以独立的。 

△ UCIe 规划了两种等级封装的性能目标

当然,UCIe 没有必要急于跟进封装技术的极限,更高密度的键合通常还是为私有(协议)接口准备的,典型的如存储器(SRAM、HMB、3D NAND的内部。UCIe 能够满足通用总线的连接需求即可,如 PCIe、UPI、NVLink 等。值得一提的是,UCIe 对高速 PCIe 的深度捆绑,注定了它“嫌贫爱富”的格局。

实际上,SoC(System on Chip)是一个相当宽泛的概念,UCIe 面向的可以看作是宏系统集成(Macro-System on Chip)。而在传统观念中适合低成本、高密度的 SoC 可能需要集成大量的收发器、传感器、块存储设备等等。再譬如,一些面向边缘场景的推理应用、视频流处理的 IP 设计企业相当活跃,这些 IP 可能需要更灵活的商品化落地方式。既然相对低速设备的集成不在 UCIe 的考虑范围内,低速、低成本接口的标准化尚有空间。
下载链接:
《华为:迈向智能世界白皮书2023版(合集)》
1、迈向智能世界白皮书2023版(计算)
2、迈向智能世界白皮书2023版(云计算) 3、迈向智能世界白皮书2023版(数字金融) 4、迈向智能世界白皮书2023版(数据通信) 5、迈向智能世界白皮书2023版(数据存储)

《FMS 2023闪存峰会CXL合集(1)》

《FMS 2023闪存峰会CXL合集(2)》
下一代超融合架构白皮书
《46+份超融合技术及报告合集》
《数据中心技术合集》
1、数据中心超融合以太技术白皮书
2、数据中心可持续发展能力要求 

3、数据中心绿色设计白皮书(2023) 

4、新型数据中心高安全技术体系白皮书

异构融合计算技术白皮书
超融合数据中心网络
中国联通的开放网络研究与实践
中国联通开放硬件网络设备白皮书
白牌网络及交换机白皮书汇总
1、掘金云数据中心白盒化趋势.pdf
2、商用交换芯片SDN支持现状分析.pdf
3、未来网络白皮书——白盒交换机技术白皮书.pdf
4、协议无关交换机架构技术与应用白皮书.pdf
5、中国联通开放硬件网络设备白皮书.pdf
6、中兴通讯CO重构技术白皮书.pdf
《2022网信自主创新调研报告(2023)》
《2022中国物联网行业研究报告》
2021年中国物联网云平台发展研究报告
《算力网络技术合集(1)》
1、算力网络关键技术及发展挑战分析 
2、中国算力网络全景洞察白皮书 
3、算力感知网络CAN技术白皮书(中国移动) 
4、算力时代网络运力研究白皮书 
5、数字中国建设关键基础设施,算力网络时代来临(2023) 
6、算力网络技术白皮书
《算力网络技术合集(2)》
7、算力网络场景下SLA约束的能耗优化微服务调度策略(2023) 
8、网络算力接入时延圈绘制展示研究和实践(2023) 
9、浅析面向算力时代全光底座的构建 
10、云渲染任务智能算力调度策略研究(2023) 
11、算力网络推进金融元宇宙落地(2023) 
12、全光算力网络关键技术及建设策略研究(2023)

数据中心绿色设计白皮书(2023)

存储系统性能和可靠性基础知识

云基建专题:AI驱动下光模块趋势展望及弹性测试

精华:数据库系统的分类和评测研究

可重构计算:软件可定义的计算引擎

近存及存内计算专题简介

集装箱冷板式液冷数据中心技术规范

浸没式液冷发展迅速,“巨芯冷却液”实现国产突破

两相浸没式液冷—系统制造的理想实践

浸没液冷服务器可靠性白皮书

天蝎5.0浸没式液冷整机柜技术规范

AIGC加速芯片级液冷散热市场爆发

某液冷服务器性能测试台的液冷系统设计

《智能存储与磁盘故障预测合集》

《内存技术应用研究及展望合集》


本号资料全部上传至知识星球,加入全栈云技术知识星球下载全部资料。





免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。



温馨提示:扫描二维码关注“全栈云技术架构”公众号,点击阅读原文进入“全栈云技术知识”星球获取10000+技术资料。



智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 100浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 52浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 87浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 111浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 111浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 73浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦