UCIe白皮书(终版)

智能计算芯世界 2024-09-17 09:16
转自:半导体行业观察
来源:UCie


UCIe是一个开放的行业互连标准,可以实现小芯片之间的封装级互连,具有高带宽、低延迟、经济节能的优点。能够满足整个计算领域,包括云端、边缘端、企业、5G、汽车、高性能计算和移动设备等,对算力、内存、存储和互连不断增长的需求。UCIe 具有封装集成不同Die的能力,这些Die可以来自不同的晶圆厂、采用不同的设计和封装方式。


下载链接:

《HotChips 2024大会技术合集(1)》

《HotChips 2024大会技术合集(2)》

《HotChips 2024大会技术合集(3)》

《HotChips 2024大会技术合集(4)》

《HotChips 2024大会技术合集(5)》
UCIe白皮书(终版)
实现PCI Express 5.0和CXL设计的最大吞吐量和最低延
Hyperion_Research:CXL and Gen-Z Consortiums Combine Forces

实现Chiplets封装集成的动机


戈登·摩尔在其论文 “Crammingmore components onto integrated circuits” (于1965年4月19日发表在Electronics第38卷第8期)中开创性地指出:集成电路中晶体管的数量每两年会增长一倍,50年过去了,这个被称为“摩尔定律”的理论坚持到如今,已经摇摇欲坠。在同一篇论文中,戈登·摩尔预测了“结算日”的到来,他指出:用多个独立封装的小功能单元互连构建大型系统的方法可能会更经济。这种多Die集成的模式如今已经被运用到了一些主流的商业产品中,比如消费级CPU、服务器 CPU、GP-GPU 等。

 

实现Chiplets封装集成的动机有很多。为了满足不断增长的性能需求,芯片面积不断增加,有些设计甚至会超出掩模版面积的限制,比如具有数百个核心的多核 CPU,或扇出非常大的交换[曹1] 电路(Switch)。即使在设计不超过面积限制的情况下,改用多个小芯片集成封装的方式也更有利于提升良率,实现芯片的跨市场复用。另外,多个相同Die的集成封装能够适用于大规模的应用场景。




图1:UCIe开启开放式封装级生态系统交付平台


实现Chiplet封装集成的另一个动机是为了从产品和项目的角度降低整体投资组合成本,并抢占产品市场。例如,图 1 所示的处理器核心可以最先进的工艺节点,用更高的成本换取极致的节能性能,而内存和 I/O 控制器功能可以复用已经建立好的旧工艺节点(n -1 或 n-2)。采用这种划分方式,可以减小Die的面积,从而提高产量。如图 2 所示,跨工艺节点的 IP 移植成本很高,而且随着工艺节点的进步,该成本增长非常迅速。若采用多Die集成模式,由于Die的功能不变,我们不必对其IP进行移植,便可在节省成本的同时实现抢占市场的可能。Chiplet封装集成模式还可以使用户能够自主选择Die的数量和类型,从而针对不同的产品类型做出不同的权衡。例如,用户可以根据自己的具体需求挑选任意数量的计算、内存和I/O Die,并无需针对具体需求进行Die的自主设计,这有利于降低产品的SKU成本。

 

Chiplet的封装集成允许厂商能够以快速且经济的方式提供定制解决方案。如图 1 所示,不同的应用场景可能需要不同的计算加速能力,但可以使用同一种核心、内存和 I/O。Chiplet的封装集成还允许厂商根据功能需求对不同的功能单元应用不同的工艺节点,并实现共同封装。例如,内存、逻辑、模拟和光学器件可以被应用不同的工艺技术,然后和Chiplet封装到一起。由于相比板级互连,封装级互连具有线长更短、布线更紧密的优点,因此,像内存访问这种需要高带宽的应用场景都可以以封装级集成的方式实现(例如HBM,High Bandwidth Memory)。

 

UCIe是封装互连的战略性成果,它以前瞻性的方式渗入各种应用模型,并蓄势待发,志在扭转行业未来。


导致行业广泛采纳一种标准的因素


图2展示了成功建立一个生态系统的秘诀。数十年来,开放的生态系统不断蓬勃发展,涌现出了像PCI Express®, Universal Serial Bus®, Computer ExpressLink (CXL)这样的优秀的外设互连标准,正是在创建和推动这个生态系统的过程中,我们通过系统的实践学习,创造出了UCIe。


图2:不同工艺节点的设计成本 (来源: IBS, 引自IEEEHeterogeneous Integration Roadmap)


一个开放的行业标准对于发展健康的生态系统至关重要,其定义了能够适应广泛用途且具有高标准关键性能指标 (KPI) 的规范,以及全面的合规性和互通性机制。UCIe 规格书修订版 1.0 包含行业领先的 KPI、调试支持和合规性注意事项。在整个行业中,作为涵盖制造、组装和测试公司的封装级裸芯集成技术目前已然成熟。大部分代工厂以及市场上的外包半导体组装和测试 (OSAT) 公司使用专有互连技术以提供高性能产品。UCIe 作为行业领导者共同努力开发的结果,是一种用于Chiplet快速互连和无缝交互的通用标准,其中用于互连的Chiplet可以采用不同工艺、来自不同厂商。虽然UCIe 发起人涵盖云服务、半导体制造、OSAT、IP 供应商和芯片设计人员等多个交叉领域,但 UCIe 联盟对所有人开放。UCIe有望成为chiplet的封装级互连标准,实现chiplet开放生态的蓬勃发展。



图3:一个成功的具有高可互通性的Chiplet生态应该具备的要素


由 UCIe 1.0 规范驱动的应用模型和 KPI


UCIe 是一种分层协议,分为物理层、Die-to-Die 适配器和协议层,如图 4a 所示。物理层负责处理电信号、时钟信号、链路训练和边带信号等。Die-to-Die 适配器则为chiplet提供链路状态管理和参数调整。其通过循环冗余校验 ( cyclic redundancy check:CRC) 和链路级重传机制保证数据的可靠传输。除此之外,Die-to-Die 适配器配备了底层仲裁机制用于支持多种协议,以及通过数据宽度为256字节的微片(FLIT))进行数据传输的底层传输机制。

 

在现有的生态中,PCIe和CXL协议已经被广泛部署在几乎所有的板级计算单元上,因此UCIe通过在协议层本地端提供PCIe和CXL协议映射,以利用现有的生态和资源来确保各互连设备之间的无缝交互。借助于PCIe和CXL,可以将已部署成功的SoC构建、链路管理和安全解决方案直接迁移到UCIe。因此UCIe可提供丰富的应用模型:通过PCIe/CXL.io(CXL子协议,下文中地Cache.Mem和Cache.cache同属此列)解决直接内存访问的数据传输、软件发现、错误处理等问题;主机内存则通过CXL.Mem访问;对缓存由特殊要求的加速器等应用程序可以使用 CXL.cache对主机内存进行高效地缓存。UCIe 还定义了一种“流协议”,可用于映射任何其他协议。此外,随着使用模型的发展,UCIe联盟可以通过不断创新来对Chiplet互连技术进行优化。

 

UCIe 1.0定义了两种类型的封装,如图4b所示。其中标准封装(2D)成本效益更高,而更先进的封装(2.5D)则是为了追求更高的功率。在实际的设计中,由多种商用的封装方式可供选择,图表中仅展示其中一部分。UCIe规范支持这些类别中所有类型的封装选择。



图4:UCIe : 层级化的协议和多种封装类型


UCIe支持两种板级的使用方式。第一种是封装级的集成方式,其目的是拥有更强的能源效率和更高的性价比,如图5a所示。附加在板子上的元件(例如内存,加速器,网络设备,调制解调器等等)可以被集成在各种板子上,从便携式设备到高端服务器均可,其中的裸片的来源各不相同,并且拥有不同的封装选项即便是在同一个封装内。第二种使用方式是使用非封装的连接方式,使用不同类型的媒介(例如光,电缆,毫米波)等等使用UCIe 重定时器来传输下层协议(例如PCIe,CXL),在整机甚至是机组层来启用资源池,资源分享,甚至是通过载入-储存语义实现超越板卡结点层到整机/机组层的信息传输使得在边缘计算或是数据中心中的应用拥有更好的能源效率和性价比。

 


图5:UCI支持的使用方式:封装级的集成或是使用不同媒介的非封装的连接(例如(光,毫米波,电缆)


UCIe支持不同的数据传输速率,位宽,凸点间隔,还有通道,来保证最广泛的可行的互用性,详细描述如表1所示。它定义了一个边带接口使设计和验证变得容易。UCIe 互联的单簇的组成单元是包含了N条单端,单向,全双工的数据线(标准封装选项中N=16,高级封装选项中N=64),一条单端的数据线用作有效信号,一条线用于追踪,每个方向都有一个差分的发送时钟,还有每个方向的两条线用于边带信号(单端,一条是800MHz的时钟,一条是数据线)。高级封装选项中支持把空闲的线束作为错误处理线束(包括时钟,有效信号,边带信号等等),标准封装选项中支持位宽退化来处理错误。多簇的UCIe 互联可以组合起来在每条连接链路上提供更优的性能,如图6所示。



表1:UCIe的特征和关键性能指标


表1概括了两种封装选项的关键性能指标。一片拥有标准封装选项的设计可以与任何其他拥有标准封装选项的设计进行交互。类似地,一片拥有高级封装选项地设计也可以和任何其他拥有高级封装地设计进行交互,即使凸点间隔的宽度从25u到55u不等。应该指出的是KPI表谨慎地估计了目前最宽的凸点间隔的性能。举个例子,高级封装选项中使用了45u。带宽密度将提升到3.24倍如果我们使用更密的凸点间隔为25u的封装。即便是在45u,1300+的带宽密度(线性的或是面积)也约等于目前我们所能实现的最高效率的PCIe SERDES的20倍。类似的,PCIe的PHY目前的~10pJ/b能源效率也可以通过基于UCIe的设计降低到原先的1/20,这归功于他们更短的通道接触。UCIe也使得一条线性的电源-带宽消耗曲线有更快的开关时间(对于基于SERDES的设计来说为亚纳秒乘以微秒的级别),将节省90+%的能源。因此,它不但自己是低功耗的,还能在能源节约上有出色的表现,兼顾极佳的能源效率和出色的性能。对于先进技术而言,这些能源节约有十分重大的意义。在近10年的末尾,UCIe1.0被定义用来满足这些大范围的挑战性应用工程的需求。



图6:簇的宽度,每个封装选项中1,2或4簇都可以联合起来,实现更大的带宽。


总结


为了使得计算组合设备能够持续得到创新,一个开放的芯粒生态系统成为了一项巨大的需求。UCIe 1.0兼顾了极佳的能源效率和性价比。它是一个开放的标准,拥有一个即插即用的模型,同时它参考了几个成功的标准,由工业界领先团队提出,确保它能在未来得到广泛的使用。我们可以预见未来的创新将在芯粒层面上产生,不同芯粒组合的可适配性将满足客户的不同应用需求。


在未来,我们期望联盟产生更多的高能效和性价比的解决方案,因为凸点间隔的宽度会持续缩小,3D封装会变成主流。从延迟,带宽和能源效率的角度来看这些将要求宽的链路运行地更慢,并且裸片的连接将会更加紧密。先进的封装和半导体制造技术将会在未来的10年在计算界掀起新的革命。UCIe已经蓄势待发,准备开启生态系统的创新来利用这些技术。当这些先进技术出现时,UCIe能跟上它们的脚步。


全液冷冷板系统参考设计及性能测试白皮书(2024)
基于标准PCIe接口的人工智能加速卡液冷设计白皮书(2024)
《服务器及存储用液冷部件技术规范合集》
1、第1部分:冷板 2、第2部分:连接系统 3、第3部分:冷量分配单元 4、第4部分:监控系统
算力工厂建设指南白皮书(2024)
《2024开放计算中国峰会(1)》
1、大模型重构AI基础设施 2、AI大模型算力底座实践与思考 3、为AI的迅速崛起提供动力
《2024开放计算中国峰会(2)》
1、在OpenBMC上实现固件可观测性技术 2、用于整机柜供电的多种电源产品方案 3、数据中心服务器主板的供电新方案
《2024开放计算中国峰会(3)》
1、移动云面向算力网络的算力基础设施 2、X400超级AI以太网,加速AI业务创新 3、开放计算中的高速连接解决方案介绍
《2024开放计算中国峰会(4)》
1、3M在数据中心的高速互联解决方案 2、数据中心冷源和末端的高效协同优化研究 3、冷板式液冷人工智能加速卡技术规范介绍 4、高性能液冷系统用快速连接解决方案
《AI系列深度报告合集》
1、报告(一):光模块AIGC高景气持续,800G+产品需求旺盛 2、报告(二):HBM高带宽特性释放AI硬件性能,AI高景气持续驱动需求高增 3、报告(三):政策与技术螺旋前进,高级别自动驾驶商业闭环雏形已现
4、报告(四):大模型篇—大模型发展迈入爆发期,开启AI新纪元
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书

计算机行业深度:从技术路径,纵观国产大模型逆袭之路


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



电子书<服务器基础知识全解(终极版)>更新完毕。

获取方式:点击“阅读原文”即可查看182页 PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 92浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 107浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 143浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 141浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 138浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 93浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 103浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 126浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 170浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 110浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 114浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦