在迈向先进工艺节点的进展中,硬件扩展不断地受到挑战,使得超大规模数据中心和人工智能(AI)设计对运算效能和数据传输的要求,已经到了最高的程度。先进系统单芯片(SoC)在尺寸上已经到了光罩的极限,因此需要找到创新的解决方案来延续摩尔定律,并且降低功耗、提高效能。在同一封装中将芯片做3D立体堆栈,和使用硅中介层的多小芯片系统2.5D封装,已经成为新的解决方案。当然,这两种方式也面临着各自的挑战。
3D-IC设计需求
触及物理学的极限只是一个开端,在面对微缩的几何面积所带来的挑战时,近来发展出的先进技术将可加大设计的扩展性。芯片设计人员必须开发新颖的异质架构,以便将它们运用到集成电路(IC)当中,使其产生更高效率和更大效用,特别是在超大规模运算、5G通信、汽车和AI等市场领域。随着FinFET技术的进步,尽管我们拥有性能更好的晶体管,但每个晶体管的成本和复杂性都也持续增加,这使得7纳米(nm)及更小的IC设计变得困难且昂贵。
一些先进的SoC,例如GPU、CPU和多核心AI芯片面临的另一大挑战,是它们的晶粒尺寸(die size)已达到标线限制,这表示单一晶粒已经无法在物理量度上,去整合大规模扩展像是逻辑功能、内存和输入/输出(I/O)这些模块,而这对于数据和运算等密集型的应用程序是至关重要的。这也使得管理相关成本和良率变得越来越困难。
基于这些趋势,最终需要一种硅芯片分解方法,将不同技术节点中的多个小芯片组装在一个封装上。并非每个逻辑功能都需要被设计在最先进的节点中,因此,系统级封装(SiP)正在成为一种可行的替代方案,其中模拟和数字IP模块、甚至完整的IC和SoC,都可以透过再分布层或硅基板层相互连接。
随着晶粒之间(die-to-die)连接技术的改进,IC的3D堆栈是应对这些挑战的另一种解决方案,因此获得了极大的关注。在同一个共享封装上的选择性3D立体堆栈也广被讨论,因此,现在解决摩尔定律放缓的方法,更多的是透过芯片中的模块整合来驱动,而不是晶体管缩放。总之,多个小芯片和晶粒堆栈方法降低了整体一次性工程费用的成本,提高了设计功能和性能,也降低了功耗,透过有效使用Z方向堆栈克服了光罩尺寸(reticle size)限制,并提供了更灵活的IP使用模型,同时缩短创新产品的上市时间。
多个小芯片(Multi-Chiplet)/3D-IC设计挑战
规划、设计和分析此类多个小芯片SiP面临着一系列的挑战。使用现有的工具和方法,可以进行“分布式晶粒”(die-by-die)设计并连接中介层或重布线层(RDL)上的部件。这是一种由下而上的方法,用于当今的多个小芯片设计中,其中不同的芯片和封装是由各个项目团队设计,选择“现成的”IP,一切都在顶层聚合,这涉及到很多档案的传递和数据库格式交换。组装完成后,一些顶层布线是透过多种布线解决方案来完成,这些解决方案可以执行特定角度的布线形状。
图1:多个小芯片系统之系统级检查。
但是,这种方法有一些限制:
- 并非所有组件都设计为最适合相互连接或针对特定应用设计。这可能会导致对单个晶粒或小芯片进行昂贵的过度设计,从而降低整个系统的性能。
- 必须有一种有效的方法来进行顶层聚合和设计模型简化,以建构具有凸块规划和互连优化的完整系统,同时考虑到小芯片在封装基板上的放置。很多时候,这一步骤会因为错误的设计模型简化(incorrect abstraction),导致引起太多次的重复修改。
- 小芯片创建的聚合系统需要系统级的验证,尽管每个单独的小芯片都通过了签核检查,例如静态时序分析(STA)、电源、电子迁(EM)和电压(IR)分析,但在系统中连接在一起的所有这些都需要额外的验证。因此,“设计收敛”(design closure)涉及“系统级收敛”,以及额外的验证检查,例如翘曲(warpage)等长期影响就需要热应力和机械应力检查,对于在RDL或硅中介层上彼此相邻放置的小芯片,就需要进行电磁干扰(EMI),以及信号和电源完整性(SI/PI)分析。
整合性解决方案的需求——新一代3D-IC平台(点击查看)
这种多个小芯片系统的成功设计环境应该是整合性的,而且是模块化的。它应该能够以由下而上的设计方法组装多个小芯片,同时也可以使用由上而下的设计方法将系统视为一个整体,完整的将系统划分为小芯片(如果需要的话)。它应该能够妥善地整合,以便能在芯片和封装两个世界之间无缝传递数据,却又能够单独实现和分析每个单独的芯片,以进行芯片签核和系统级收敛。换句话说,它应该预先掌握设计意图、支持设计模型简化,进而达到系统整体规划的概念,获得系统级效应(如热和功耗)提供的早期反馈,并透过无缝实现和分析达到系统融合,同时考虑芯片和封装效应。
新一代3D-IC平台是用于实现异质与同质2.5D和3D立体堆栈设计的规划、实现和签核,能够整合多个小芯片的整合方案。该平台由多个模块化子流程组成,将系统级规划和分析元素与实际实体设计和早期分析相结合,显著提高了3D-IC设计的生产力。
图2:Cadence的Integrity 3D-IC平台。
Cadence推出Integrity 3D-IC平台有以下几个关键功能:
1.单一整合窗口、高容量的3D设计规划和实现平台,用于处理晶圆代工厂支持的所有类型的3D-IC堆栈。
2.搭配Cadence Virtuoso和Allegro环境下强大的跨平台协同设计功能。
3.优异的流程管理器,用于设置早期功率-热分析、跨芯片静态时序分析和芯片间物理几何结构验证。
4.透过系统规划器进行系统级设计的独特阶层规划和优化能力。
5.透过内建TCL的实时直接整合功能与Cadence的Innovus实现系统合作完成设计堆栈管理、从芯片到封装信号对应,以及先进凸块和硅穿孔(TSV)封装规划。
6.拥有强大的2D到3D芯片分割探索流程,可透过记忆-逻辑(memory-on-logic)功能电路和逻辑-逻辑(logic-on-logic)功能电路,进行同质堆栈芯片探索。
7.单一整合的3D-IC系统数据库,用于管理多阶层的3D-IC系统设计。
Integrity数据库
建构3D-IC设计涉及用户的大量数据管理。系统设计人员提供了有关I/O连接、芯片设计限制和中介层的数据,还有带有凸块(bump)位置的ASIC数据库、带有凸块位置的封装数据库和晶圆厂技术文件。使用者必须管理许多不同的库文件和格式,这是一个容易出错的过程。
图3:多小芯片设计的数据管理复杂性。
为了克服这种复杂性,3D-IC开发的核心是一个通用的阶层式多技术数据库,它将系统、封装和基板与堆栈IC连接起来。该数据库可以读取属于不同技术节点的多个技术文件。每个3D-IC组件的设计数据都保存和架构在这个单一的整合性数据库目录之下。原生整合性数据库工具指令语言(Tcl)使读取、写入、更新、显示和覆盖设计数据库和分析结果变得容易。Integrity数据库是Innovus阶层式数据库的自然延展。因此,它还支持本身就是依照阶层式而设计的数字芯片。
顶层(Top-Level)系统规划与设计聚合
Integrity 3D-IC平台包括了系统规划,它可以针对由多个基板、组件和物理设计类型组成的系统级设计进行建模。来自不同工艺技术的不同芯片组件(die devices)可以聚合在一起,用于系统级规划和管理。
系统规划器管理不同组件之间的物理和逻辑关系。可以创建定义出接触层和接触凸块,来导入和管理每个网络的物理接触点。网络可以在连接的组件之间传播和映像,以形成芯片到芯片的连接,以及与顶层系统设计的连接。可以透过为每个组件和顶层设计创建或导入网表或管脚定义文件(pin-mapping files),来组装系统级网表。顶层网表(Top-level net)名称可以在设计周期中定义和管理。这些功能使系统规划器的运作环境,在进行3D-IC系统设计创建、组装、分析和管理时更为理想。系统规划器用于组装、配置和同时管理多芯片设计项目。
图4:分层规划与系统级设计优化。
2D到3D分区和实现——自上而下的方法
在一些多个小芯片设计中,小芯片的划分是预先确定的,但在其他一些情况下,可以将原始芯片设计,透过2D设计拆分为3D立体设计过程中,进行功率、效能和面积(PPA)的改进探索。一种方法是在架构上以手动方式执行此操作,先定义哪些逻辑电路在顶层芯片上,哪些在底部芯片,然后进行3D堆栈设计。另一种越来越流行的技术是将设计中的所有功能模块单元(macros)都放在一个芯片中,而将所有标准组件单元放在另一个芯片中。
由于众所周知的摩尔定律“内存墙”(memory wall)的瓶颈,也就是芯片内存的大小和速度,无法赶上处理器设计中晶体管数量的成长速度,因此将内存芯片镶嵌在逻辑芯片的顶部成为一种流行的3D堆栈法,用于改善内存存取延迟的状况。
Integrity 3D-IC利用Innovus设计实现中独特的混合布局技术将内存功能模块单元从2D设计中分离出来,并自动将其分区并实现为两个同质层,顶部有一个内存芯片,底部有一个带有标准组件单元的逻辑芯片。由于某些逻辑功能(例如测试逻辑)可能需要与储存器驻留在同一芯片上,因此该流程还透过有选择性地将设计实现中独特的混合布局技术将内存功能模块单元和逻辑分区分配给不同的芯片,让用户得以控制。该流程依赖于3D混合布局、凸块分配、和设计时的物理展开,以实现完全布局的时序感知堆栈设计。一旦完成之后,用户可以继续运行标准布局实现步骤,如频率树综合(CTS)、优化、布线和布线后各项步骤,作为正常的布局和布线流程来完成3D设计实现。
具有特殊布线和SI/PI分析的硅中介层实现
如今,许多多个小芯片组合使用2.5D整合或使用RDL或硅中介层来连接多个小芯片。硅中介层通常位在带有被动组件的较成熟技术节点中,这使得它们更容易制造,并且尺寸可以更大。中介层的物理实现涉及芯片之间的布线(例如,HBM和ASIC之间)或芯片和封装基板之间的布线。有些全布线性的挑战是空间壅塞和可用布线金属层数量有限。此外,这些路由通常必须经过比芯片上(on-chip)布线更长的距离,因此它们必须有直线连接,不能转折,并且必须掌控信号完整性。根据所设计的信号类型,也需要屏蔽一些长距离走线信号和扁平电缆。
Cadence的NanoRoute是一个统一布线和互连优化的自动布线器解决方案,可帮助用户在数字化实现过程中,快速实现同步时序、面积、信号完整性和可制造性收敛。NanoRoute利用其高频扩展,具有处理特殊布线管理的能力,例如长度匹配、电阻匹配、河流形布线(long river routing)、屏蔽、45度布线等。它提供了一个全自动布线解决方案,具有高屏蔽率(接近100%)、均匀分布的线长、和最少的过孔数(via count)。它将有网格的布线器性能特征与离网灵活性相结合,它同时基于对时序、面积、功率、可制造性和良率的3D影响,进行评估和优化互连拓扑,从而实现硅中介层,此外也完成了先进或成熟工艺技术的高效能设计。这确保了设计流片和生产芯片的平稳路径,同时评估和优化信号完整性、生产意识、布线和时序等相互依赖的目标,以加快设计收敛,同时保持设计的原始构想。
与模拟IC和封装布局工具协同设计
对于模拟或射频(RF)设计,主要的设计实现平台是Virtuoso环境。Integrity 3D-IC透过系统规划器与Virtuoso环境连接,完成的设计可以将凸块中的资料传递出去,并读取到Integrity 3D-IC平台中的另一个芯片,从而为第二个芯片上的连接凸块创建最佳位置。透过OpenAccess已有的数据交换能力,进一步被用来在Virtuoso和Integrity 3D-IC环境之间交换设计数据。
IC封装是硅芯片、封装到电路板设计流程中的关键环节,Allegro环境为PCB和复杂封装的设计和实现提供了完整且可扩展的技术。Cadence的IC封装设计技术使设计人员能够优化复杂的、单芯片和多芯片打线封装和倒晶封装设计,以降低成本和提高性能,同时满足较短的项目时程。Allegro环境中的IC封装数据库可以直接导入Integrity 3D-IC平台,用于与中介层和基板的凸块连接。这样可以在单一环境中考虑整个系统的同时,进行封装协同设计,使得封装设计步骤可大幅简化。
早期系统级签核
在建构3D系统时,早期签核分析是获得系统级反馈,以及在架构选择期间进行设计更改的关键。除了静态时序和功率、电子迁移、IR分析和实体验证等标准分析之外,堆栈芯片系统还需要额外的签核检查,包括热分析和翘曲机械应力分析。Integrity 3D-IC提供了流程管理器,可引导用户完成与3D-IC设计相关的不同分析设置。
热分析流程
3D-IC设计的性能取决于3D-IC系统组件之间的热行为和温度分布。Cadence Celsius支持热分析的各方面需求,能够快速准确地识别IC封装和PCB中的热问题,包括堆栈芯片系统。它包括一个强大的有限元素分析(FEA)场求解器,用于分析瞬态和稳态、复杂固体结构中的热传导,并利用运算流体动力学(CFD)引擎进行对流和辐射传热分析。3D FEA场求解器可为任何3D结构提供准确的热传导分析和电气模拟,例如带有凸块或打线接合的复杂封装、连接器,以及连接器到PCB的过渡。
电源分析流程
将电流传输到每个晶粒并穿过其他晶粒的供电网络,是3D-IC最重要的功能之一。3D-IC设计的性能在很大程度上取决于多个晶粒之间的功率分配/分布和压降(IR)效应。Integrity 3D-IC能够对3D-IC设计执行先轨分析(ERA),提供具有详细设计和优化连接的多芯片堆栈数据。它使用Cadence Voltus IC电源完整性解决方案的功能,可在供电网络(PDN)上提供准确、快速和大容量的分析和优化技术或芯片的电网。它与Cadence的Sigrity XtractIM和Sigrity PowerDC技术整合,用于芯片-封装-电路板总功率签核协同分析,包括2.5D硅中介层和3D-IC技术。
静态时序分析流程
对于多个小芯片而言,重要的是在每个芯片上单独关闭时序,并对穿过芯片的任何同步路径进行计时。直接芯片堆栈缩短了互连,但增加了建模3D堆栈结构(如硅通孔和微凸块)的复杂性。
Cadence的Quantus提取解决方案可对所有3D结构进行建模,并使用标准ICT技术文件,以及进程间技术文件,创建多个标准寄生交换格式(SPEF)。提取单个规范文件后,Tempus时序签核方案提供快速的多芯片静态时序分析(STA)功能,以及独特的分布式处理和云端功能。Tempus方案能够为片上(on-die)接口使用边界模型抽象,并且能够执行晶粒间互连的延迟计算。此外,堆栈晶粒设计必须考虑各种工艺电阻电容寄生效应组合(RC corners),确保所有流程变化都有考虑到,以便进行准确的时序分析。Tempus使用特殊技术进行晶粒间路径分析和调整以优化签核组合(signoff corners)。最小化的数据库设计和降低签核组合复杂性,提供了准确的分析结果,而不会牺牲设计性能,并加快设计时序收敛。
结论:达成系统级效能、功耗与面积(PPA)
所有系统级分析工具的早期反馈,是3D-IC平台一个关键性差异。这种反馈可以纳入规划和实现阶段,以在2.5D/3D配置中更改小芯片位置,它可以影响2.5D/3D配置中的芯片选择,最重要的是,它可以影响功率、单元密度和时序优化。例如,如果基于功率密度向量的准确电热分析反馈可行的话,芯片堆栈设计人员可以更改布局规划,同步切换模块就不会堆栈在彼此的顶部。来自时序分析的早期反馈,会影响每个晶粒中优化其他对象时所需的条件。简而言之,设计流程中,当正确点能够反馈出有用的系统级分析信息时,可以避免在任何3D-IC配置中,因为小芯片过度设计和临界误差所付出的高昂代价。
摩尔定律已经放缓,但它影响了多个小芯片设计的普及,以便在无须传统工艺缩放的情况下产生更高的带宽、更低的功耗和更小的面积设计。当今可用的各种单点工具和方法仅解决了设计3D-IC中一部分复杂的挑战。在设计3D堆栈或2.5D配置时,当前的方法是扩展成3D维度。Cadence Integrity 3D-IC平台是业界首个用于系统规划、设计实现和准确早期分析的整合型解决方案。它透过统一的阶层式数据库,利用Cadence业界领先的数字、模拟和封装和签核技术、透过在规划和实现流程的早期提供系统分析、和智能实体验证反馈,发展出3D-IC平台,可提供真正的由3D-IC系统驱动的PPA,同时避免成本高昂的过度设计和3D-IC系统中单个小芯片的临界误差。
(本文由Cadence Design Systems提供)
本文同步刊登于台湾版《电子工程专辑》杂志2022年4月刊