UCIe白皮书(终版)

智能计算芯世界 2024-09-17 09:16
转自:半导体行业观察
来源:UCie


UCIe是一个开放的行业互连标准,可以实现小芯片之间的封装级互连,具有高带宽、低延迟、经济节能的优点。能够满足整个计算领域,包括云端、边缘端、企业、5G、汽车、高性能计算和移动设备等,对算力、内存、存储和互连不断增长的需求。UCIe 具有封装集成不同Die的能力,这些Die可以来自不同的晶圆厂、采用不同的设计和封装方式。


下载链接:

《HotChips 2024大会技术合集(1)》

《HotChips 2024大会技术合集(2)》

《HotChips 2024大会技术合集(3)》

《HotChips 2024大会技术合集(4)》

《HotChips 2024大会技术合集(5)》
UCIe白皮书(终版)
实现PCI Express 5.0和CXL设计的最大吞吐量和最低延
Hyperion_Research:CXL and Gen-Z Consortiums Combine Forces

实现Chiplets封装集成的动机


戈登·摩尔在其论文 “Crammingmore components onto integrated circuits” (于1965年4月19日发表在Electronics第38卷第8期)中开创性地指出:集成电路中晶体管的数量每两年会增长一倍,50年过去了,这个被称为“摩尔定律”的理论坚持到如今,已经摇摇欲坠。在同一篇论文中,戈登·摩尔预测了“结算日”的到来,他指出:用多个独立封装的小功能单元互连构建大型系统的方法可能会更经济。这种多Die集成的模式如今已经被运用到了一些主流的商业产品中,比如消费级CPU、服务器 CPU、GP-GPU 等。

 

实现Chiplets封装集成的动机有很多。为了满足不断增长的性能需求,芯片面积不断增加,有些设计甚至会超出掩模版面积的限制,比如具有数百个核心的多核 CPU,或扇出非常大的交换[曹1] 电路(Switch)。即使在设计不超过面积限制的情况下,改用多个小芯片集成封装的方式也更有利于提升良率,实现芯片的跨市场复用。另外,多个相同Die的集成封装能够适用于大规模的应用场景。




图1:UCIe开启开放式封装级生态系统交付平台


实现Chiplet封装集成的另一个动机是为了从产品和项目的角度降低整体投资组合成本,并抢占产品市场。例如,图 1 所示的处理器核心可以最先进的工艺节点,用更高的成本换取极致的节能性能,而内存和 I/O 控制器功能可以复用已经建立好的旧工艺节点(n -1 或 n-2)。采用这种划分方式,可以减小Die的面积,从而提高产量。如图 2 所示,跨工艺节点的 IP 移植成本很高,而且随着工艺节点的进步,该成本增长非常迅速。若采用多Die集成模式,由于Die的功能不变,我们不必对其IP进行移植,便可在节省成本的同时实现抢占市场的可能。Chiplet封装集成模式还可以使用户能够自主选择Die的数量和类型,从而针对不同的产品类型做出不同的权衡。例如,用户可以根据自己的具体需求挑选任意数量的计算、内存和I/O Die,并无需针对具体需求进行Die的自主设计,这有利于降低产品的SKU成本。

 

Chiplet的封装集成允许厂商能够以快速且经济的方式提供定制解决方案。如图 1 所示,不同的应用场景可能需要不同的计算加速能力,但可以使用同一种核心、内存和 I/O。Chiplet的封装集成还允许厂商根据功能需求对不同的功能单元应用不同的工艺节点,并实现共同封装。例如,内存、逻辑、模拟和光学器件可以被应用不同的工艺技术,然后和Chiplet封装到一起。由于相比板级互连,封装级互连具有线长更短、布线更紧密的优点,因此,像内存访问这种需要高带宽的应用场景都可以以封装级集成的方式实现(例如HBM,High Bandwidth Memory)。

 

UCIe是封装互连的战略性成果,它以前瞻性的方式渗入各种应用模型,并蓄势待发,志在扭转行业未来。


导致行业广泛采纳一种标准的因素


图2展示了成功建立一个生态系统的秘诀。数十年来,开放的生态系统不断蓬勃发展,涌现出了像PCI Express®, Universal Serial Bus®, Computer ExpressLink (CXL)这样的优秀的外设互连标准,正是在创建和推动这个生态系统的过程中,我们通过系统的实践学习,创造出了UCIe。


图2:不同工艺节点的设计成本 (来源: IBS, 引自IEEEHeterogeneous Integration Roadmap)


一个开放的行业标准对于发展健康的生态系统至关重要,其定义了能够适应广泛用途且具有高标准关键性能指标 (KPI) 的规范,以及全面的合规性和互通性机制。UCIe 规格书修订版 1.0 包含行业领先的 KPI、调试支持和合规性注意事项。在整个行业中,作为涵盖制造、组装和测试公司的封装级裸芯集成技术目前已然成熟。大部分代工厂以及市场上的外包半导体组装和测试 (OSAT) 公司使用专有互连技术以提供高性能产品。UCIe 作为行业领导者共同努力开发的结果,是一种用于Chiplet快速互连和无缝交互的通用标准,其中用于互连的Chiplet可以采用不同工艺、来自不同厂商。虽然UCIe 发起人涵盖云服务、半导体制造、OSAT、IP 供应商和芯片设计人员等多个交叉领域,但 UCIe 联盟对所有人开放。UCIe有望成为chiplet的封装级互连标准,实现chiplet开放生态的蓬勃发展。



图3:一个成功的具有高可互通性的Chiplet生态应该具备的要素


由 UCIe 1.0 规范驱动的应用模型和 KPI


UCIe 是一种分层协议,分为物理层、Die-to-Die 适配器和协议层,如图 4a 所示。物理层负责处理电信号、时钟信号、链路训练和边带信号等。Die-to-Die 适配器则为chiplet提供链路状态管理和参数调整。其通过循环冗余校验 ( cyclic redundancy check:CRC) 和链路级重传机制保证数据的可靠传输。除此之外,Die-to-Die 适配器配备了底层仲裁机制用于支持多种协议,以及通过数据宽度为256字节的微片(FLIT))进行数据传输的底层传输机制。

 

在现有的生态中,PCIe和CXL协议已经被广泛部署在几乎所有的板级计算单元上,因此UCIe通过在协议层本地端提供PCIe和CXL协议映射,以利用现有的生态和资源来确保各互连设备之间的无缝交互。借助于PCIe和CXL,可以将已部署成功的SoC构建、链路管理和安全解决方案直接迁移到UCIe。因此UCIe可提供丰富的应用模型:通过PCIe/CXL.io(CXL子协议,下文中地Cache.Mem和Cache.cache同属此列)解决直接内存访问的数据传输、软件发现、错误处理等问题;主机内存则通过CXL.Mem访问;对缓存由特殊要求的加速器等应用程序可以使用 CXL.cache对主机内存进行高效地缓存。UCIe 还定义了一种“流协议”,可用于映射任何其他协议。此外,随着使用模型的发展,UCIe联盟可以通过不断创新来对Chiplet互连技术进行优化。

 

UCIe 1.0定义了两种类型的封装,如图4b所示。其中标准封装(2D)成本效益更高,而更先进的封装(2.5D)则是为了追求更高的功率。在实际的设计中,由多种商用的封装方式可供选择,图表中仅展示其中一部分。UCIe规范支持这些类别中所有类型的封装选择。



图4:UCIe : 层级化的协议和多种封装类型


UCIe支持两种板级的使用方式。第一种是封装级的集成方式,其目的是拥有更强的能源效率和更高的性价比,如图5a所示。附加在板子上的元件(例如内存,加速器,网络设备,调制解调器等等)可以被集成在各种板子上,从便携式设备到高端服务器均可,其中的裸片的来源各不相同,并且拥有不同的封装选项即便是在同一个封装内。第二种使用方式是使用非封装的连接方式,使用不同类型的媒介(例如光,电缆,毫米波)等等使用UCIe 重定时器来传输下层协议(例如PCIe,CXL),在整机甚至是机组层来启用资源池,资源分享,甚至是通过载入-储存语义实现超越板卡结点层到整机/机组层的信息传输使得在边缘计算或是数据中心中的应用拥有更好的能源效率和性价比。

 


图5:UCI支持的使用方式:封装级的集成或是使用不同媒介的非封装的连接(例如(光,毫米波,电缆)


UCIe支持不同的数据传输速率,位宽,凸点间隔,还有通道,来保证最广泛的可行的互用性,详细描述如表1所示。它定义了一个边带接口使设计和验证变得容易。UCIe 互联的单簇的组成单元是包含了N条单端,单向,全双工的数据线(标准封装选项中N=16,高级封装选项中N=64),一条单端的数据线用作有效信号,一条线用于追踪,每个方向都有一个差分的发送时钟,还有每个方向的两条线用于边带信号(单端,一条是800MHz的时钟,一条是数据线)。高级封装选项中支持把空闲的线束作为错误处理线束(包括时钟,有效信号,边带信号等等),标准封装选项中支持位宽退化来处理错误。多簇的UCIe 互联可以组合起来在每条连接链路上提供更优的性能,如图6所示。



表1:UCIe的特征和关键性能指标


表1概括了两种封装选项的关键性能指标。一片拥有标准封装选项的设计可以与任何其他拥有标准封装选项的设计进行交互。类似地,一片拥有高级封装选项地设计也可以和任何其他拥有高级封装地设计进行交互,即使凸点间隔的宽度从25u到55u不等。应该指出的是KPI表谨慎地估计了目前最宽的凸点间隔的性能。举个例子,高级封装选项中使用了45u。带宽密度将提升到3.24倍如果我们使用更密的凸点间隔为25u的封装。即便是在45u,1300+的带宽密度(线性的或是面积)也约等于目前我们所能实现的最高效率的PCIe SERDES的20倍。类似的,PCIe的PHY目前的~10pJ/b能源效率也可以通过基于UCIe的设计降低到原先的1/20,这归功于他们更短的通道接触。UCIe也使得一条线性的电源-带宽消耗曲线有更快的开关时间(对于基于SERDES的设计来说为亚纳秒乘以微秒的级别),将节省90+%的能源。因此,它不但自己是低功耗的,还能在能源节约上有出色的表现,兼顾极佳的能源效率和出色的性能。对于先进技术而言,这些能源节约有十分重大的意义。在近10年的末尾,UCIe1.0被定义用来满足这些大范围的挑战性应用工程的需求。



图6:簇的宽度,每个封装选项中1,2或4簇都可以联合起来,实现更大的带宽。


总结


为了使得计算组合设备能够持续得到创新,一个开放的芯粒生态系统成为了一项巨大的需求。UCIe 1.0兼顾了极佳的能源效率和性价比。它是一个开放的标准,拥有一个即插即用的模型,同时它参考了几个成功的标准,由工业界领先团队提出,确保它能在未来得到广泛的使用。我们可以预见未来的创新将在芯粒层面上产生,不同芯粒组合的可适配性将满足客户的不同应用需求。


在未来,我们期望联盟产生更多的高能效和性价比的解决方案,因为凸点间隔的宽度会持续缩小,3D封装会变成主流。从延迟,带宽和能源效率的角度来看这些将要求宽的链路运行地更慢,并且裸片的连接将会更加紧密。先进的封装和半导体制造技术将会在未来的10年在计算界掀起新的革命。UCIe已经蓄势待发,准备开启生态系统的创新来利用这些技术。当这些先进技术出现时,UCIe能跟上它们的脚步。


全液冷冷板系统参考设计及性能测试白皮书(2024)
基于标准PCIe接口的人工智能加速卡液冷设计白皮书(2024)
《服务器及存储用液冷部件技术规范合集》
1、第1部分:冷板 2、第2部分:连接系统 3、第3部分:冷量分配单元 4、第4部分:监控系统
算力工厂建设指南白皮书(2024)
《2024开放计算中国峰会(1)》
1、大模型重构AI基础设施 2、AI大模型算力底座实践与思考 3、为AI的迅速崛起提供动力
《2024开放计算中国峰会(2)》
1、在OpenBMC上实现固件可观测性技术 2、用于整机柜供电的多种电源产品方案 3、数据中心服务器主板的供电新方案
《2024开放计算中国峰会(3)》
1、移动云面向算力网络的算力基础设施 2、X400超级AI以太网,加速AI业务创新 3、开放计算中的高速连接解决方案介绍
《2024开放计算中国峰会(4)》
1、3M在数据中心的高速互联解决方案 2、数据中心冷源和末端的高效协同优化研究 3、冷板式液冷人工智能加速卡技术规范介绍 4、高性能液冷系统用快速连接解决方案
《AI系列深度报告合集》
1、报告(一):光模块AIGC高景气持续,800G+产品需求旺盛 2、报告(二):HBM高带宽特性释放AI硬件性能,AI高景气持续驱动需求高增 3、报告(三):政策与技术螺旋前进,高级别自动驾驶商业闭环雏形已现
4、报告(四):大模型篇—大模型发展迈入爆发期,开启AI新纪元
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书

计算机行业深度:从技术路径,纵观国产大模型逆袭之路


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



电子书<服务器基础知识全解(终极版)>更新完毕。

获取方式:点击“阅读原文”即可查看182页 PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 行业变局:从机械仪表到智能交互终端的跃迁全球两轮电动车市场正经历从“功能机”向“智能机”的转型浪潮。数据显示,2024年智能电动车仪表盘渗透率已突破42%,而传统LED仪表因交互单一、扩展性差等问题,难以满足以下核心需求:适老化需求:35%中老年用户反映仪表信息辨识困难智能化缺口:78%用户期待仪表盘支持手机互联与语音交互成本敏感度:厂商需在15元以内BOM成本实现功能升级在此背景下,集成语音播报与蓝牙互联的WT2605C-32N芯片方案,以“极简设计+智能交互”重构仪表盘技术生态链。技术破局:
    广州唯创电子 2025-04-11 08:59 151浏览
  • ‌亥姆霍兹线圈‌是由两组相同的线圈组成,线圈之间的距离等于它们的半径。当电流同时流过这两个线圈时,会在它们中间形成一个几乎均匀的磁场。这种设计克服了普通线圈磁场不均匀的缺陷,能够在中心区域形成稳定、均匀的磁场‌。‌亥姆霍兹线圈的应用领域‌包括材料、电子、生物、医疗、航空航天、化学、应用物理等各个学科。由于其操作简便且能够提供极微弱的磁场直至数百高斯的磁场,亥姆霍兹线圈在各研究所、高等院校及企业中被广泛用于物质磁性或检测实验。‌亥姆霍兹线圈可以根据不同的标准进行分类‌:‌按磁场方向分类‌:‌一维亥
    锦正茂科技 2025-04-09 17:20 150浏览
  • 政策驱动,AVAS成新能源车安全刚需随着全球碳中和目标的推进,新能源汽车产业迎来爆发式增长。据统计,2023年中国新能源汽车渗透率已突破35%,而欧盟法规明确要求2024年后新能效车型必须配备低速提示音系统(AVAS)。在此背景下,低速报警器作为车辆主动安全的核心组件,其技术性能直接关乎行人安全与法规合规性。基于WT2003H芯片开发的AVAS解决方案,以高可靠性、强定制化能力及智能场景适配特性,正成为行业技术升级的新标杆。WT2003H方案技术亮点解析全场景音效精准触发方案通过多传感器融合技术
    广州唯创电子 2025-04-10 08:53 222浏览
  • 背景近年来,随着国家对资源、能源有效利用率的要求越来越高,对环境保护和水处理的要求也越来越严格,因此有大量的固液分离问题需要解决。真空过滤器是是由负压形成真空过滤的固液分离机械。用过滤介质把容器分为上、下两层,利用负压,悬浮液加入上腔,在压力作用下通过过滤介质进入下腔成为滤液,悬浮液中的固体颗粒吸附在过滤介质表面形成滤饼,滤液穿过过滤介质经中心轴内部排出,达到固液分离的目的。目前市面上的过滤器多分为间歇操作和连续操作两种。间歇操作的真空过滤机可过滤各种浓度的悬浮液,连续操作的真空过滤机适于过滤含
    宏集科技 2025-04-10 13:45 103浏览
  •   卫星故障预警系统软件:卫星在轨安全的智能护盾   北京华盛恒辉卫星故障预警系统软件,作为确保卫星在轨安全运行的关键利器,集成前沿的监测、诊断及预警技术,对卫星健康状况予以实时评估,提前预判潜在故障。下面将从核心功能、技术特性、应用场景以及发展走向等方面展开详尽阐述。   应用案例   目前,已有多个卫星故障预警系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星故障预警系统。这些成功案例为卫星故障预警系统的推广和应用提供了有力支持。   核心功能   实时状态监测:
    华盛恒辉l58ll334744 2025-04-09 19:49 170浏览
  • 行业痛点:电动车智能化催生语音交互刚需随着全球短途出行市场爆发式增长,中国电动自行车保有量已突破3.5亿辆。新国标实施推动行业向智能化、安全化转型,传统蜂鸣器报警方式因音效单一、缺乏场景适配性等问题,难以满足用户对智能交互体验的需求。WT2003HX系列语音芯片,以高性能处理器架构与灵活开发平台,为两轮电动车提供从基础报警到智能交互的全栈语音解决方案。WT2003HX芯片技术优势深度解读1. 高品质硬件性能,重塑语音交互标准搭载32位RISC处理器,主频高达120MHz,确保复杂算法流畅运行支持
    广州唯创电子 2025-04-10 09:12 183浏览
  • 什么是车用高效能运算(Automotive HPC)?高温条件为何是潜在威胁?作为电动车内的关键核心组件,由于Automotive HPC(CPU)具备高频高效能运算电子组件、高速传输接口以及复杂运算处理、资源分配等诸多特性,再加上各种车辆的复杂应用情境等等条件,不难发见Automotive HPC对整个平台讯号传输实时处理、系统稳定度、耐久度、兼容性与安全性将造成多大的考验。而在各种汽车使用者情境之中,「高温条件」就是你我在日常生活中必然会面临到的一种潜在威胁。不论是长时间将车辆停放在室外的高
    百佳泰测试实验室 2025-04-10 15:09 97浏览
  • 由西门子(Siemens)生产的SIMATIC S7 PLC在SCADA 领域发挥着至关重要的作用。在众多行业中,SCADA 应用都需要与这些 PLC 进行通信。那么,有哪些高效可行的解决方案呢?宏集为您提供多种选择。传统方案:通过OPC服务器与西门子 PLC 间接通信SIMATIC S7系列的PLC是工业可编程控制器,能够实现对生产流程的实时SCADA监控,提供关于设备和流程状态的准确、最新数据。S7Comm(全称S7 Communication),也被称为工业以太网或Profinet,是西门
    宏集科技 2025-04-10 13:44 110浏览
  •     前几天同事问我,电压到多少伏就不安全了?考虑到这位同事的非电专业背景,我做了最极端的答复——多少伏都不安全,非专业人员别摸带电的东西。    那么,是不是这么绝对呢?我查了一下标准,奇怪的知识增加了。    标准的名字值得玩味——《电流对人和家畜的效应》,GB/T 13870.5 (IEC 60749-5)。里面对人、牛、尸体分类讨论(搞硬件的牛马一时恍惚,不知道自己算哪种)。    触电是电流造成的生理效应
    电子知识打边炉 2025-04-09 22:35 210浏览
  •   天空卫星健康状况监测维护管理系统:全方位解析  在航天技术迅猛发展的当下,卫星在轨运行的安全与可靠至关重要。整合多种技术,实现对卫星的实时监测、故障诊断、健康评估以及维护决策,有力保障卫星长期稳定运转。  应用案例       系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。  一、系统架构与功能模块  数据采集层  数据处理层  智能分析层  决策支持层  二、关键技术  故障诊断技术  
    华盛恒辉l58ll334744 2025-04-10 15:46 97浏览
  • 技术原理:非扫描式全局像的革新Flash激光雷达是一种纯固态激光雷达技术,其核心原理是通过面阵激光瞬时覆盖探测区域,配合高灵敏度传感器实现全局三维成像。其工作流程可分解为以下关键环节:1. 激光发射:采用二维点阵光源(如VCSEL垂直腔面发射激光器),通过光扩散器在单次脉冲中发射覆盖整个视场的面阵激光,视场角通常可达120°×75°,部分激光雷达产品可以做到120°×90°的超大视场角。不同于传统机械扫描或MEMS微振镜方案,Flash方案无需任何移动部件,直接通过电信号控制激光发射模式。2.
    robolab 2025-04-10 15:30 120浏览
  • 文/Leon编辑/侯煜‍关税大战一触即发,当地时间4月9日起,美国开始对中国进口商品征收总计104%的关税。对此,中国外交部回应道:中方绝不接受美方极限施压霸道霸凌,将继续采取坚决有力措施,维护自身正当权益。同时,中国对原产于美国的进口商品加征关税税率,由34%提高至84%。随后,美国总统特朗普在社交媒体宣布,对中国关税立刻提高至125%,并暂缓其他75个国家对等关税90天,在此期间适用于10%的税率。特朗普政府挑起关税大战的目的,实际上是寻求制造业回流至美国。据悉,特朗普政府此次宣布对全球18
    华尔街科技眼 2025-04-10 16:39 129浏览
  •   海上电磁干扰训练系统:全方位解析      海上电磁干扰训练系统,作为模拟复杂海上电磁环境、锻炼人员应对电磁干扰能力的关键技术装备,在军事、科研以及民用等诸多领域广泛应用。接下来从系统构成、功能特点、技术原理及应用场景等方面展开详细解析。   应用案例   系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。   一、系统构成   核心组件   电磁信号模拟设备:负责生成各类复杂的电磁信号,模拟海上多样
    华盛恒辉l58ll334744 2025-04-10 16:45 151浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦