随着平面扩展优势的减弱,晶圆代工厂在3D 技术领域和新技术方面的竞争日趋白热化。
英特尔、三星和台积电这三家领先的芯片代工厂已经开始填补其路线图中的一些关键部分,为未来几代芯片技术增加了积极的交付日期,并为大幅提高性能和缩短定制设计的交付时间创造了条件。
与过去由单一行业路线图决定如何进入下一个工艺节点不同,这三家最大的代工厂正越来越多地开辟自己的道路。它们都朝着同一个大方向前进,即采用三维晶体管和封装、一系列使能技术和扩展技术,以及规模更大、更多样化的生态系统。但是,它们在方法、架构和第三方支持方面出现了一些关键性的差异。
三者的路线图都显示,晶体管的扩展将至少持续到 18/16/14 埃的范围,并可能从纳米片和岔片 FET 开始,在未来的某个时间点出现互补 FET(CFET)。主要的驱动因素是人工智能/ML 以及需要处理的数据量激增,在大多数情况下,这将涉及处理元件阵列,通常具有较高的冗余度和同质性,以实现更高的产量。
在其他情况下,这些设计可能包含数十个或数百个芯片,其中一些用于特定数据类型,而另一些则用于更通用的处理。这些芯片可以以 2.5D 配置安装在基板上,这种方法因简化了高带宽内存(HBM)的集成而在数据中心和移动设备中获得了广泛应用,移动设备还包括其他功能,如图像传感器、电源和用于非关键功能的附加数字逻辑。这三家代工厂也都在开发全 3D-IC 产品。此外,还将提供混合选项,即逻辑堆叠在逻辑上并安装在基板上,但与其他功能分开,以最大限度地减少热量等物理影响--这种异构配置被称为 3.5D 和 5.5D。
快速和大规模定制
与过去相比,最大的变化之一就是能更快地将特定领域的设计推向市场。虽然这听起来很平凡,但对于许多尖端芯片来说,这是竞争的需要,它要求从根本上改变芯片的设计、制造和封装方式。要使这一方案奏效,需要标准、创新连接方案和工程学科的组合,而在过去,这些学科之间的互动即使有,也很有限。
有时也被称为 “大规模定制”,它包括通常的功率、性能和面积/成本(PPA/C)权衡,以及快速组装选项。这就是异构芯片组的前景,从扩展的角度来看,它标志着摩尔定律的下一阶段。十多年来,整个半导体生态系统一直在为这一转变逐步奠定基础。
但是,如何让异构芯片(基本上是来自多个供应商和代工厂的加固 IP)协同工作,既是一项必要的工程挑战,也是一项艰巨的工程挑战。第一步是以一致的方式将芯片连接在一起,以实现可预测的结果,而这正是代工厂花费大量精力的地方,特别是通用芯片互连快车(UCIe)和Bunch of Wires(BoW)标准。虽然这种连接性是三者的关键要求,但也是分歧的主要领域之一。
在全面集成 3D-IC 之前,英特尔代工厂目前的解决方案是开发业内人士所称的芯片 “插座”。英特尔代工厂不是为商业市场确定每个芯片的特性,而是定义规格和接口,这样芯片供应商就可以开发这些功能有限的微型芯片,以满足这些规格要求。这解决了商业芯片市场的一大绊脚石。从数据速度到散热和噪音管理,所有部件都需要协同工作。
英特尔的方案在很大程度上依赖于 2014 年首次推出的嵌入式多芯片互连桥(EMIB)。“英特尔技术开发副总裁拉利塔-伊曼尼(Lalitha Immaneni)说:"EMIB底座真正酷的地方在于,你可以添加任意数量的芯片组。“我们在设计中使用的 IP 数量没有限制,也不会增加中间件的尺寸,因此它的成本效益很高,而且与工艺无关。我们提供了一个封装装配设计工具包,它就像传统的装配 PDK。我们向他们提供设计规则、参考流程,并告诉他们允许的结构。它还会向他们提供我们在装配过程中需要的任何辅助材料。
根据不同的设计,封装中可能会有多个 EMIB,并辅以热接口材料 (TIM),以散发可能滞留在封装内的热量。随着封装内计算量的增加,以及基板变薄以缩短信号传输距离,热接口材料变得越来越常见。
但是,基板越薄,散热效果就越差,这可能导致热梯度随工作负荷而变化,因此难以预测。要消除这些热量,可能需要 TIM、额外的散热器,甚至可能需要微流体等更奇特的冷却方法。
台积电和三星也提供电桥。三星在 RDL 内部嵌入了桥接器,并将其称为 2.3D 或 I-Cube ETM。部分集成工作将预先在已知的良好模块中完成,而不是依赖插座方法。
“Arm 首席执行官 Rene Haas 在最近的三星代工厂活动上发表主题演讲时说:"将两个、四个或八个 CPU 集成到一个系统中,是非常成熟的客户知道如何去做的事情。“但是,如果你想构建一个拥有 128 个 CPU 的 SoC,并将其连接到神经网络、内存结构、与 NPU 接口的中断控制器、连接到另一个芯片组的片外总线,这将是一项艰巨的工作。在过去的一年半时间里,我们看到很多人都在建造这些复杂的 SoC,希望从我们这里获得更多。”
三星还一直在针对特定市场,建立芯片组供应商的小型财团[1]。最初的概念是由一家公司制造 I/O 芯片,另一家公司制造互连芯片,第三家公司制造逻辑芯片,当这种做法被证明可行时,再加入其他公司,为客户提供更多选择。
台积电已经尝试了许多不同的方案,包括 RDL 和非 RDL 桥接、扇出、2.5D 基片上晶片(CoWoS)和系统集成芯片(SoIC),这是一种 3D-IC 概念,使用非常短的互连线将芯片小片包装并堆叠在基片内。事实上,台积电几乎为每种应用都提供了工艺设计套件,并一直积极为高级封装开发组装设计套件,包括与之配套的参考设计。
面临的挑战是,愿意投资这些复杂封装的代工客户越来越需要非常定制化的解决方案。为了解决这个问题,台积电推出了一种名为 3Dblox 的新语言,这是一种自上而下的设计方案,融合了物理和连接构造,允许在两者之间应用断言。这种沙盒方法允许客户利用任何一种封装方法--InFO、CoWoS 和 SoIC。这对台积电的商业模式也至关重要,因为该公司是三家代工厂中唯一一家纯粹的代工厂[2]--尽管英特尔和三星在最近几个月都疏远了它们的代工业务。
“台积电先进技术与光罩工程副总裁 Jim Chang 在 2023 年 3Dblox 首次推出时的演讲中说:"我们从模块化的概念出发。“我们可以用这种语言语法加上断言来构建完整的 3D-IC 堆叠。”
Chang说,这种方法的起源是物理和连接性设计工具之间缺乏一致性。但他补充说,一旦开发出这种方法,还可以在不同的设计中重复使用芯片,因为大部分特征描述已经明确定义,而且设计是模块化的。
图 1:台积电的 3Dblox 方法。资料来源:台积电
三星随后于 2023 年 12 月推出了自己的系统描述语言 3DCODE。三星和台积电都声称自己的语言是标准,但它们更像是新的代工规则,因为这些语言不太可能在自己的生态系统之外使用。英特尔的 2.5D 方法不需要新的语言,因为其规则是由插座规范决定的,这就为芯片开发人员缩短了上市时间,并提供了一种更简单的方法,从而牺牲了一些定制化。
芯片组的挑战
芯片组的优势显而易见。它们可以在任何合理的工艺节点上独立设计,这对模拟功能尤为重要。但是,如何将这些元件组合在一起并获得可预测的结果,一直是一个重大挑战。事实证明,DARPA 最初提出的类似乐高积木的架构方案比最初设想的要复杂得多,需要广泛的生态系统不断做出巨大的努力才能使其发挥作用。
芯片组需要精确同步,以便及时处理、存储和检索关键数据。否则,就会出现时序问题,即一项计算延迟或与其他计算不同步,从而导致延迟和潜在的死锁。在对任务或安全至关重要的应用中,一秒钟的损失都可能造成严重后果。
简化设计流程是一项极其复杂的工作,尤其是在特定领域的设计中,不能一刀切。这三家代工厂的目标都是为开发高性能、低功耗芯片的公司提供更多选择。据估计,目前 30% 至 35% 的尖端设计启动都掌握在谷歌、Meta、微软和特斯拉等大型系统公司手中,尖端芯片和封装设计的经济性已发生重大变化,PPA/C 计算公式和权衡也是如此。
为这些系统公司开发的芯片可能不会进行商业销售。因此,如果它们能实现更高的每瓦特性能,那么设计和制造成本就能被更低的冷却功率和更高的利用率所抵消,从而可能减少服务器数量。反之,在移动设备和商品服务器中销售的芯片则相反,高昂的开发成本可以通过巨大的销量来摊销。采用先进封装的定制设计的经济性对两者都有效,但原因却截然不同。
向下、向上和向外扩展
我们假定,在这些复杂的芯片系统中,会有多种类型的处理器,其中一些高度专业化,而另一些则更具通用性。由于功率预算有限,其中至少有一部分处理器可能会在最先进的工艺节点上开发。先进的节点仍然可以提供更高的能效,从而在相同的面积上容纳更多的晶体管,以提高性能。这对于人工智能/ML 应用至关重要,因为要更快地处理更多数据,就需要在高度并行配置中进行更多的乘法/累加运算。更小的晶体管可提供更高的能效,从而在每平方毫米硅片上实现更多的处理,但需要改变栅极结构以防止漏电,这就是为什么岔片式 FET 和 CFET 即将问世。
简而言之,流程领先仍然具有价值。率先将领先工艺推向市场对企业有利,但这只是更大难题中的一块。所有三家代工厂都已宣布了向埃级工艺推进的计划。英特尔计划今年推出 18A 工艺,几年后再推出 14A 工艺。
图 2:英特尔的工艺路线图。资料来源:英特尔晶圆厂
台积电则将在 2027 年推出 A16(见下图 3)。
图 3:台积电进入埃时代的扩展路线图。来源:台积电
而三星公司将在 2027 年的某个时候通过其 SF1.4 产品达到 14 埃,显然将跳过 18/16 埃。(见图 4)
图 4:三星的工艺扩展路线图。资料来源 三星晶圆代工厂
从工艺节点的角度来看,所有三家代工厂都走在同一条轨道上。但进步不再仅仅与工艺节点相关。人们越来越关注特定领域的时延和每瓦性能,而这正是在真正的 3D-IC 配置中堆叠逻辑的优势所在,即使用混合键将芯片连接到基板和芯片之间。在平面芯片上通过导线移动电子仍然是最快的(假设信号不需要从芯片的一端传输到另一端),但在其他晶体管上堆叠晶体管是次佳选择,在某些情况下甚至比平面 SoC 更好,因为某些垂直信号路径可能更短。
在最近的一次演讲中,三星晶圆代工业务开发副总裁 Taejoong Song 展示了一个路线图,其特点是在基板上安装逻辑芯片,将 2 纳米(SF2)芯片与 4 纳米(SF4X)芯片结合在一起,两者都安装在另一个基板上。这基本上是 2.5D 封装上的 3D-IC,也就是前面提到的 3.5D 或 5.5D 概念。Song 表示,晶圆代工厂将从 2027 年开始在 SF2P 上堆叠 SF1.4。这种方法特别吸引人的地方在于散热的可能性。由于逻辑与其他功能分离,热量可以通过基板或五个暴露面中的任何一面从堆叠的芯片中导出。
图 5:三星用于人工智能的 3D-IC 架构。来源:三星
与此同时,英特尔将利用其 Foveros Direct 3D 技术在逻辑上堆叠逻辑,可以是面对面堆叠,也可以是背对背堆叠。根据英特尔的一份新白皮书,这种方法允许来自不同代工厂的芯片或晶圆,连接带宽由铜通孔间距决定。白皮书指出,第一代产品将使用 9 微米的铜孔间距,而第二代产品将使用 3 微米的铜孔间距。
图 6:英特尔的 Foveros Direct 3D。资料来源:英特尔
"英特尔的 Immaneni 说:"真正的 3D-IC 来自 Foveros,还有混合债券。"你不能再走传统的设计路线,把它组装在一起并进行验证,然后发现'哎呀,我有个问题'。你不能再这样做了,因为这会影响产品的上市时间。因此,你真的需要提供一个沙盒,使其具有可预测性。但即使在进入详细设计环境之前,我也要进行机械/电气/热分析。我想看看连接情况,以免出现开路和短路。3D-IC 的负担更多在于代码设计,而不是执行。
Foveros 允许将有源逻辑芯片堆叠在另一个有源或无源芯片上,基础芯片用于连接 36 微米间距封装中的所有芯片。通过利用先进的排序技术,英特尔声称可以保证99%的已知良品率,以及97%的组装后测试良品率。
而台积电的 CoWoS 已被英伟达(NVIDIA)和 AMD 用于人工智能芯片的高级封装。CoWoS 本质上是一种 2.5D 方法,通过硅通孔使用内插器连接 SoC 和 HBM 内存。该公司的 SoIC 计划更为雄心勃勃,将逻辑存储器和传感器等其他元件一起封装在生产线前端的 3D-IC 中。这可以大大缩短多层、多尺寸和多功能的组装时间。台积电声称,与其他 3D-IC 方法相比,其键合方案能实现更快、更短的连接。一份报告称,苹果公司将从明年开始使用台积电的 SoIC 技术,而 AMD 也将扩大这种方法的使用范围。
其他创新
工艺和封装技术的到位为更广泛的竞争选择打开了大门。与过去由大型芯片制造商、设备供应商和 EDA 公司确定芯片路线图的情况不同,芯片世界为终端客户提供了做出这些决定的工具。这在很大程度上要归功于封装所能容纳的功能数量与 SoC 的网孔限制所能容纳的功能数量之比。封装可以根据需要进行水平或垂直扩展,在某些情况下,仅通过垂直平面规划就能提高性能。
但是,考虑到云计算和边缘技术的巨大商机,特别是人工智能在各地的推广,三大代工厂及其生态系统正在竞相开发新的功能和特性。在某些情况下,这需要利用它们已有的技术。在其他情况下,则需要全新的技术。
例如,三星已经开始详细介绍有关定制 HBM 的计划,其中包括 3D DRAM 堆栈及其下的可配置逻辑层。这是第二次采用这种方法。早在 2011 年,三星和美光就共同开发了混合内存立方体,将 DRAM 堆栈封装在一层逻辑层上。在 JEDEC 将 HBM 变成标准后,HBM 赢得了这场战争,而 HMC 则基本消失了。但是,HMC 方法除了时机不对之外,并没有其他问题。
在新形式下,三星计划提供定制的 HBM 作为选项。内存是决定性能的关键因素之一,在内存和处理器之间快速读/写和来回移动数据的能力会对性能和功耗产生很大影响。如果内存的大小适合特定的工作负载或数据类型,而且部分处理可以在内存模块内完成,从而减少了需要移动的数据,那么这些数据就会大大提高。
图 7:三星路线图和创新。资料来源:
Semiconductor Engineering/MemCon 2024
与此同时,英特尔一直在研究一种更好的方法,为密集的晶体管提供电源,随着晶体管密度和金属层数的增加,这是一个长期存在的问题。过去,电源是从芯片顶部向下输送的,但在最先进的节点上出现了两个问题。其一是如何为每个晶体管提供足够的功率。其二是噪声,噪声可能来自电源、基板或电磁干扰。如果没有适当的屏蔽--由于电介质和电线越来越薄,这种屏蔽在每个新节点上都变得越来越困难--噪声就会影响信号完整性。
通过芯片背面供电可最大限度地减少此类问题,并减少布线拥塞。但这也增加了其他挑战,例如如何在不破坏结构的情况下在更薄的基板上钻孔。英特尔显然已经解决了这些问题,计划今年提供 PowerVia 背面供电方案。
台积电表示,计划于 2026/2027 年在 A16 提供背面电源。三星的计划也大致相同,将在 SF2Z 2nm 工艺中实现。
英特尔还宣布了玻璃基板计划,玻璃基板比 CMOS 具有更好的平面度和更低的缺陷率。这在先进节点上尤为重要,因为即使是纳米级的凹坑也会造成问题。与背面功率传输一样,处理问题也层出不穷。好的一面是,玻璃的热膨胀系数与硅相同,因此它与硅元件(如芯片)的膨胀和收缩兼容。经过多年的观望,玻璃突然变得非常有吸引力。事实上,台积电和三星都在研究玻璃基板,整个行业都开始使用玻璃进行设计、处理玻璃而不使其破裂,并对玻璃进行检测。
而台积电(TSMC)则非常重视生态系统的建设和工艺产品的拓展。许多业内人士表示,台积电的真正优势在于能够为任何工艺或封装提供工艺开发套件。据日经新闻报道,该代工厂生产了全球约 90% 的最先进芯片。它在先进封装方面的经验也是所有代工厂中最丰富的,而且拥有最大、最广泛的生态系统,这一点非常重要。
这个生态系统至关重要。芯片行业是如此复杂多变,没有一家公司能做到面面俱到。未来的问题将是这些生态系统的真正完整程度,尤其是在工艺数量持续增长的情况下。例如,EDA 供应商是必不可少的推动者,任何工艺或封装方法要想取得成功,设计团队都需要自动化。但是,工艺和封装选项越多,EDA 供应商就越难支持每一个增量变化或改进,而且从发布到交付之间的滞后时间也可能越长。
结论
最近的供应链故障和地缘政治使美国和欧洲确信,它们需要重新进行岸外生产和 "友商岸外 "生产。对半导体工厂、设备、工具和研究的投资是前所未有的。这对三家最大的代工厂有何影响还有待观察,但这无疑为共同封装光学、大量新材料和低温计算等新技术提供了部分动力。
所有这些变化对市场份额的影响越来越难以追踪。这已不再是哪家代工厂以最小的工艺节点生产芯片的问题,甚至也不再是芯片出货量的问题。一个先进的封装可能有几十个芯片。真正的关键是能否快速、高效地提供对客户至关重要的解决方案。在某些情况下,驱动因素是每瓦性能,而在另一些情况下,则可能是时间结果,功率是次要考虑因素。还有一些情况下,可能是多种功能的组合,而只有其中一家领先的代工厂才能提供足够数量的这些功能。但显而易见的是,代工厂的竞争比以往任何时候都要复杂得多,而且变得越来越复杂。在这个高度复杂的世界里,简单的比较标准已不再适用。
参考资料:
1. Mini-Consortia Forming Around Chiplets, March 20, 2023; E. Sperling/Semiconductor Engineering
2. TSMC also is the largest shareholder (35%) in Global Unichip Corp., a design services company.
本文翻译自 Semiconductor Engineering