先进封装下的芯粒间高速互联接口设计思考-电子工程专辑

 本文将从D2D接口的信道特点、D2D接口的技术指标，D2D接口的设计思考和D2D接口的设计流程革新等方面来浅谈D2D互联接口的共性技术。

背景

近年来，随着AIGC的发展，生产力的生成方式、产品形态都在发生重大的变化。计算规模和模型规模的不断增大，尤其是大模型的出现和广泛应用对算力的需求呈现出爆发式的增长。这一系列的变化对计算架构提出了新的挑战，首先是系统规模越来越大，系统结构越来越复杂；其次计算形态的变革，传统的计算形态，主要是基于CPU或GPU的同构计算越来越难以满足算力的持续增长。

在这一背景下，Chiplet成为非常有潜力的设计方法和解决方案。Chiplet架构可以将SoC进行拆分重组，将主要功能单元如计算、存储、传感等转变成芯粒的形式，从而支持复杂系统的异构集成。而将各种芯粒重构成为一个完整的系统则需要依赖D2D接口对其进行互联，尤其是当设计人员需要构建一个包含多种第三方芯粒的复杂系统时，一个统一的D2D互联接口成为不可或缺的组件。在此背景下，UCIe、BoW、OpenHBI等D2D互联接口协议应运而生，旨在构建一个统一的D2D互联框架。尽管协议不尽相同，D2D互联接口的底层技术存在着较多的共性，而这些共性技术是D2D接口设计人员非常重要的研究内容。

本文将从D2D接口的信道特点、D2D接口的技术指标，D2D接口的设计思考和D2D接口的设计流程革新等方面来浅谈D2D互联接口的共性技术。

D2D接口的信道特点

信道条件通常是接口研究的起点，接口电路的架构搭建、微结构选取到具体电路的实现无不以信道特性作为出发点，D2D接口的设计也不例外。相比传统高速接口，D2D接口的信道表现了较多新的特点，这主要是由D2D接口的应用环境和封装形式所带来的。众所周知，D2D接口主要用于芯粒间的高带宽数据互联，这一应用场景决定了D2D接口信道的两个主要特点：一、信道长度较短，一般局限在封装内部；二、信道数量大，布线密集。同时，这一应用场景也决定了D2D接口往往面对较为先进的封装形式，其布线通道通常是基板（substrate）甚至是硅中介层（silicon interposer），我们分别称之为D2D接口的标准封装（standard package）和先进封装（advanced package）。

相比以PCB走线为主的传统互联方式，D2D标准封装和先进封装的显著特点是节距（pitch）的减小。在标准封装中，芯片凸点（bump）的节距从传统封装的0.5~1mm减小到100~200um，而在先进封装中，这一物理尺寸进一步微缩到30~60um。这一变化首先带来了一系列信道物理尺寸的同步微缩，包括互联走线的线宽、线距和金属厚度等。而这些物理尺寸的微缩进一步引起了信道电学特性的改变。概括而言，从传统封装到先进封装，信道的单位长度电阻显著增大，而其单位长度的等效电感和电容基本保持不变。考虑到在D2D标准封装和先进封装下其信道长度显著缩短，信道整体的等效电感和电容显著缩小。具体而言，先进封装下的D2D信道的电学特性变化主要表现在如下方面：

一、插入损耗（insertion loss）

得益于D2D互联间距较短，相比传统的高速互联接口，D2D接口信道的损耗较低。我们考察了多种D2D互联协议的参考信道，在其最高工作频率下的信道损耗均小于-6dB，在实际设计信道的过程中，这一指标通常可以控制得更加优越（-2~-3dB）。较低的信道损耗使得高阶均衡不再是一个必须项，同时，简单的调制方式（如NRZ）就能实现较高数据率的传输，这些特点均为高能效数据传输提供了有利条件。

二、反射（reflection）

得益于D2D信道电学特性的变化趋势（较高的阻抗，较小的等效电感和电容），相比传统信号，D2D信道的反射特性得到了较大程度的优化，尤其是在先进封装下，信道对反射敏感的频率范围进一步推高，这一特点为D2D接口的端接方案提供了更大的空间。在D2D信道条件下，发射端的源阻抗和接收端的端接阻抗可以不要求完全匹配，设计人员可以选取更小的源阻抗和更大的端接阻抗以获取更大的信号摆幅和更小的功耗。在互联非常短的极端情况下，设计人员甚至可以选择舍弃端接电阻。

三、串扰（crosstalk）

串扰是D2D信道设计所面临的主要问题。由于D2D接口通常具有庞大的引脚数量，因此布线面积会非常受限，这将导致一些传统的结论在D2D互联场景下不再适用。通常而言，设计人员克服串扰的常用方法包括采用差分信号线以及引入屏蔽线等，而研究表明，在面积受限的情况下，单端非屏蔽方案相比差分屏蔽线方案具有更好的串扰特性，这是D2D信道显著区别于传统信道的一个重要特点。鉴于此，D2D信道的串扰特性更多地需要从返回路径上进行优化，比如采用带状线而非微带线结构，采用更薄的介质层，更完整的参考平面等。

D2D接口的技术指标

对D2D接口的技术指标的考察揭示了D2D高速接口的技术趋势。我们整理了国内外多个较为常见的D2D接口协议的技术指标，从中可以看到D2D高速接口的一些共性技术要求。基本的技术指标如封装形式（凸点节距）、信道长度、数据位宽、最高速率等本质上相当于设计参数，也可以认为是D2D接口的功能指标。

我们看到，多数D2D接口协议均支持标准封装和先进封装，少数协议仅支持先进封装。在标准封装下，典型的信道长度通常在50mm以下，数据位宽多为16线；而在先进封装下，信道长度仅为数个mm，而数据位宽通常会比标准封装大很多，典型值在32~64线之间。通常来说，D2D接口的最高数据率对标准封装和先进封装而言没有明显区分，一般在16~32Gbps之间。

真正考验D2D接口设计能力的是以下两个性能指标：时延（latency）和能效（power efficiency）。D2D接口的时延指标通常在几个ns，该指标决定数据传输的实际吞吐率，是直接影响系统性能的重要因素。D2D接口的能效指标一般在1pJ/b以下，先进封装下的这一数值还会进一步降低。由于D2D接口传输的数据率非常庞大，其功耗十分可观，甚至在整个系统功耗中也往往占据了相当大的一部分，因此能效对于D2D接口而言同样是一个至关重要的指标。

出于对系统性能的考量（换言之对D2D接口时延和能效性能的考量），我们将进一步审视D2D接口设计参数的选取。首先，为确保系统所需要的带宽，我们通常认为更高的数据率是更好的选择，但是更高的数据率通常意味着更低的能效，甚至在特定情况下还会导致更大的时延。因此，在某些情况下，适当降低数据率，同时配合更大的数据位宽可能是一个更好的方案。当然，更大的数据位宽需要占据更大的芯片面积，此时设计者可能需要考虑采用更小的凸点节距，甚至采用先进封装等更为复杂的方案来缩小接口电路的面积。从上述分析中可以看到，D2D接口电路的设计参数选取本质上仍是性能与成本的折中，如何实现有限成本（芯片面积，研发周期等）下的时延、能效最优化是D2D接口设计者始终思考的问题。

在上述考量下，总结来说，对于标准封装的D2D接口，较优的设计选择是采用最大的数据率和较小的数据位宽来实现带宽和面积的平衡；而对于先进封装的D2D接口，较优的设计选择是采用适中的数据率和较大的数据位宽，从而在确保带宽需求的情况下争取更好的能效性能。

上述分析虽然针对D2D标准封装和先进封装，对更为先进的3D封装也同样适用。在最近发布的UCIe 2.0中，协议定义了UCIe 3D接口的设计指标。在该指标中，接口的数据率进一步降低到4Gbps，以接近系统中逻辑电路的工作频率，从而实现极致的时延和能效性能；同时，协议通过指定较大的位宽和极小的节距以确保该接口的数据带宽和带宽密度。

D2D接口的设计思考

D2D接口的设计是一项系统而又细致的工作，其中最为困难从而也是最有价值的部分正是那些可以提升D2D接口性能的设计方法。如上所述，时延和能效是D2D接口最为重要的性能指标，下面我们就从这两个方面浅谈D2D接口设计的一些思考。

一、时延

以设计方法和流程而言，D2D接口电路通常都可以分为数字电路和模拟电路两部分。在D2D接口设计中，这两部分通常由不同的设计者来承担。自然地，设计者通常会从这两个部分去分别优化D2D接口的时延。比如，在数字电路设计中，尝试采用更高的工作频率和更精简的流水线结构等；同样，在模拟电路设计中也可以通过采用合理的串并转换电路结构来缩小时延。

然而，一个可能对时延影响更为显著却往往容易被忽视的环节是模拟电路和数字电路的接口部分。这是因为数字电路和模拟电路往往处在不同的时钟域中，而数据的跨时钟域传输需要经过同步。通常来说，设计人员一般会采用FIFO来对数据进行跨时钟域同步，这一过程将会带来数个时钟周期的时延。这一开销在大多数场景下无足轻重，但是对于D2D接口而言却可能是无法承受的。因此，如何处理数模接口上的数据同步问题是优化D2D接口延时的重要课题。

优化数模接口上的时延的中心思想是在完成数据同步的基础上缩小甚至取消FIFO所带来的时延开销。对此，我们提供了两种可行的方案：边沿调整技术和FIFO重置技术。边沿调整技术将数据的跨时钟域操作视为一次数据采样，其核心思想是通过调整算法搜索到最优的采样窗口对数据进行采样，从而完成跨时钟域操作，该方案可以将时延开销由数个时钟周期减小到半个时钟周期。FIFO重置技术是将FIFO从数模接口转移到模拟电路内部的串行时钟域上，假设模拟电路中的串并转换比为N，该方法可以将时延开销减小到原始方案的N分之一。

二、能效

能效优化所涉及内容则更为广泛，大到整个D2D接口架构的选取，小到某个具体电路的实现，都可能与最终的能效特性有密不可分的联系。这里我们将选取两个典型的例子来讨论基于能效优化的一些设计实现方法。

D2D接口的时钟方案是D2D接口架构设计的一个重要内容。通常对于16~32Gbps数据率的接口设计而言，半速率架构是一个较为常用的选择，因其结构简明且性能鲁棒。但是对于D2D接口，尤其是工作在较高数据率的D2D接口，半速率架构对于能效性能而言可能不是一个最优方案。因为D2D接口的数据位宽通常较大，这意味着D2D接口的片上时钟分布网络较传统的高速接口电路远为庞大，较高的时钟频率带来的时钟分布网络的功耗开销将变得十分可观。因此，对于工作在较高数据率的D2D接口来说，采用四分之一时钟速率架构或是一个对能效性能更加友好的方案。

从具体的电路设计角度，去偏斜（de-skew）电路是D2D接口中一个非常重要的模块，同时也是与整个接口的能效特性关系非常紧密的模块。去偏斜电路的作用是调节D2D接口中每个通道的时延，从而将所有通道输出信号的时间偏差限制在极小的范围内。对于去偏斜电路的设计，延时链结构是一个常用的选择。但是当该模块需要覆盖较大的偏斜时，延时链结构需要引入较大的延时，这同时也会带来较大的功耗。因此，出于能效的考量，基于相位内插器（PI）的电路结构可能是更适合D2D接口的电路实现方案。

D2D接口的设计流程革新

D2D接口作为一种新兴的高速接口，表现出很多不同于传统高速接口的技术特点，而这些新的特点也对传统的IC设计流程提出了挑战。由上面讨论可以看到，D2D接口是少数对数字电路、模拟电路和封装都有极高设计要求的系统，而D2D接口设计对设计方法和流程的挑战则主要集中在数字电路与模拟电路、芯片与封装的界面衔接上。

对于数字电路和模拟电路界面，传统的设计方法在设计流程上通常只对数字电路进行时序约束和分析，在模拟电路侧，一般仅通过仿真确保数模接口界面的时序。对传统的高速接口而言，这样的流程通常就可以满足设计需求，而对于D2D高速接口，由于其大带宽和低延时特性，其数模接口工作在更高的频率，传统的设计流程已然难以满足数模接口界面的时序要求。因此，在D2D接口设计的过程中，设计人员还需要在模拟电路侧应用时序约束和分析流程，包括刻画模拟电路边界处器件的时序特性、对其编写约束条件，并整合到数字电路的时序分析流程中进行统一的时序优化和收敛。

对于芯片和封装的界面的处理则主要集中在信道建模问题上。在传统的高速接口电路设计流程中，封装设计人员通常对信道进行单独建模，通过电磁场仿真，提取信道的仿真模型（如S参数模型），并提供给电路设计者进行仿真验证。在D2D接口设计中，尤其是先进封装甚至是3D封装下的D2D接口，较传统的高速接口有两个显著的区别：一是端口数量显著增加，二是信道条件更加规则，各端口往往面对较为简单且一致的信道条件。在第一个变化下，传统的设计流程将消耗大量的设计资源，使设计工作变得低效；而第二个变化则为信道的统一建模提供了机会。在先进封装尤其是3D封装下，对信道建立集总器件的简单模型，并转化为线延时融合到电路时序分析的流程中实现全链路的时序优化将成为一种高效的主流设计方法。

关于奇异摩尔

AI网络全栈式互联架构产品及解决方案提供商，成立于 2021 年初，奇异摩尔以互联为中心，依托Chiplet和高性能RDMA技术, 构建统一互联架构 Kiwi Fabric，为超大规模AI计算平台提供高性能互联解决方案。

我们的核心产品涵盖，面向北向Scale out网络的AI原生智能网卡，面向南向Scale up网络的片间加速芯粒RDMA G2G，面向高性能芯片算力扩展的Chiplet互联芯粒2.5D/3D IO Die，及UCIe Die2Die IP等全链路解决方案。我们的核心团队均来自全球半导体行业巨头，如NXP, Intel, Broadcom, Alchip, AMD, NCAP等，具有丰富的AI互联产品研发和管理经验。团队具有50+高性能网络及Chiplet量产项目经验。

奇异摩尔以创新为核心驱动、以技术探索新场景、以生态构建新的半导体格局、为高性能AI计算奠定稳固的基石。

阅读全文，请先

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

中国IC设计 EDA/IP/IC设计制造/封装接口/总线/驱动技术文章

返回列表

上一篇： 华星光电顺利收购LGD广州厂，中国前三大厂的LCD电视面板市占率近70% 下一篇： 软件定义SoC助力中国智能物联网创新并服务世界

中国成功发射天通一号03星有什么意义,与01、02区别是:移动通信系真是令人振奋！中国成功发射天通一号03星，它的成功发射具有什么意义昵？与01、02卫星移动通信系统有什么区别：服务性能、用途等方面等
华为史上最强旗舰Mate 40系列：“绝版”麒麟9000，速率快5倍，买它！华为旗舰机Mate40系列正式发布，包括 Mate 40、Mate 40 Pro、Mate 40 Pro + 与 Mate40 RS 保时捷设计 4 款机型。搭载“绝版”的麒麟9000系列芯片，余承东称该芯片搭载第三代5G，上行比其他5G技术快5倍，下行快2倍。
起底美国德特里克堡生物实验室病毒背后秘密,请世卫组织专家溯源相信正义必将战胜邪恶而取得最后胜利！建议世卫组织去美国德特里克堡生物实验室去开展新冠病毒的溯源调查！为外交部发言人华春莹点大赞！
十三香还依旧!iPhone 13系列机型性能参数与售价对比,哪款值得买十三香再续依旧真香！全系小刘海！这消息有点早了吧，提前三个月iPhone 13系列的参数与售价已经出现。这次苹果新品手机有4个版本:标准版iPhone 13、iPhone 13mini、iPhone 13 Pro、iPhone 13 Pro Max ,你会喜欢哪款？
为什么说月球亮相的“织物版”国旗不简单,国旗展示系统技术怎样？相信各位老铁们，最近一星期都被我国嫦娥五号的相关视频，新闻刷屏了。虽然2020年发生了诸多不顺心的大事儿，但"嫦娥五号"成功登上月球，插上属于我国的旗帜，着实是2020年，最圆满且有
Intel中国重要组织架构调整:王锐（资料介绍）晋升新一把手, 杨旭年底 9月10日早间消息，英特尔宣布中国区组织架构全新调整升级，王锐博士晋升为英特尔公司高级副总裁、出任英特尔中国区董事长，全权领导英特尔中国区的所有业务和团队。英特尔今天同时也宣布了英特尔中国区总裁杨旭的退休计划，杨旭将为英特尔公司继续工作到今年年底。
澳大学研发皮下仿生芯片，通过植入大脑的微电极助盲人恢复视力澳大利亚墨尔本蒙纳士大学的一个研究小组最近成功开发了一种仿生设备，通过将智能手机中的电子设备与植入大脑的微电极结合使用，避过受损的视神经,允许信号从Retina 显示器传输到大脑的视觉中心，以恢复盲人的视力。
英伟达GeForce RTX 3090/3080 矩形PCB参考设计:多个 8-pin PCI-E geforce最新显卡型号有哪些？ GeForce RTX 3090 / 3080 显卡上市时间是什么时候？制作工艺、性能其它参数特点怎样？
新2022版MacBook Air升级13.3英寸mini LED屏,立讯精密将成最大供苹果笔记本电脑每一年一个升级版本深受消费者喜欢，去年2020年苹果就出了M1芯片的MacBook Air，今年陷于屏幕难产困境的新2021 MacBookPro将于今年下半年进行大批量量产，预计将于秋季发布会前后发布。2022 款 MacBook Air 将配备13.3寸mini-LED 显示屏。
新型“河豚 ”无人机大大提高了旋翼安全性，其设计原理是什么？由科罗拉多大学博尔德分校的工程师团队设计的原型无人机 “河豚 ”无人机PufferBot，解决了旋转螺旋桨碰撞的安全问题，它模仿了河豚进行设计，具体设计原理是怎样的？

2024过去了，细数中国工业经济这一年这一年的成绩单足够亮眼，但来之不易。
功得电子再获2025精品奖　以创新技术与永续承诺引领安全新标竿功得电子以“确保各类电子设备安全运行”为核心使命，服务领域涵盖电动车、AI与数据中心、医疗保健、电信、通讯及可再生能源等产业。
Vision Pro重塑VR/MR市场格局，应用领域从视听娱乐向多元生产力工 2024年VR与MR头戴装置出货量约为960万台，年增8.8%。全年出货情况反映出市场三个主要趋势：一是低价产品成主流；二是应用从娱乐扩展至多元生产力工具；三是OLEDoS成为高端近眼显示产品技术首选。未来几年这三大趋势将持续影响全球VR与MR产业生态发展......
因高世代面板产线建设推动，预计2027年OLED笔电渗透率将超过5% 尽管预估2025年的增速有限，但随着苹果计划在MacBook系列中导入OLED显示技术，预计将带动2026年底面板厂OLED高世代产线投入营运，从而推升2027年OLED笔电渗透率突破5%......
GB200机柜供应链仍需时间优化，预计出货高峰将延至2Q25至3Q25之间由于GB200 Rack在高速互通界面、热设计功耗（TDP）等设计规格皆明显高于市场主流，供应链业者需要更多时间持续调校、优化，预期最快将于2025年第二季后才有机会放量......
IDC 2023年中国协作机器人市场份额报告发布协作机器人是指能够与人类在共同工作空间进行互动和协同作业的机器人，从产品形态来看，由协作机器人本体（多关节机械手或多自由度的机器装置）及控制系统组成……
“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。
中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
汽车行业云基建向智算换代升级，汽车云市场稳定增长自动驾驶技术向端到端演进，车企对于高阶智能算力的需求快速提升，智能算力规模从百PFLOPS向千PFLOPS演进。
新蓝牙6.0协议扩展应用范围芯科科技蓝牙产品经理Parker Dorris通过本文讨论了蓝牙6.0（Bluetooth 6.0）版本中添加的最新功能。

热门评论
最新评论

换一换

先进封装下的芯粒间高速互联接口设计思考

背景

D2D接口的信道特点

D2D接口的技术指标

D2D接口的设计思考

D2D接口的设计流程革新

杂志声明