本文由半导体产业纵横编译自semianalysis
先进封装存在于成本和吞吐量与性能和密度的连续统一体上。在本系列的第一部分(超详细解读先进封装),我们谈到了对先进封装的需求。尽管对先进封装的需求显而易见,但来自英特尔(EMIB、Foveros、Foveros Omni、Foveros Direct)、台积电(InFO-OS、InFO-LSI、InFO-SOW、InFO-SoIS, CoWoS-S, CoWoS-R, CoWoS-L, SoIC), 三星 (FOSiP, X-Cube, I-Cube, HBM, DDR/LPDDR DRAM, CIS), 日月光 (FoCoS, FOEB), 索尼 (CIS)、美光 (HBM)、SK海力士 (HBM) 和 长江存储 (XStacking) 的先进封装类型和品牌数量惊人。我们经常谈论的AMD、Nvidia 等公司也都使用这些封装类型。
在本文中,我们将解释所有这些类型的封装及其用途。
倒装芯片是引线键合后常见的封装形式之一。它由来自代工厂、集成设计制造商以及外包组装和测试公司的众多公司提供。在倒装芯片中,PCB、基板或其他晶片将具有着陆焊盘。然后将芯片准确地放置在顶部,凸起与着陆焊盘接触,然后芯片被送到回流炉,回流炉加热组件并回流到凸块,将两者粘合在一起。之后焊剂被清除掉,底部填充物沉积在两者之间。这只是一个基本的工艺流程,有许多不同类型的倒装芯片,包括但不限于无助焊剂。
虽然倒装芯片非常普遍,但间距小于100微米的高级版本则不太常见。关于我们在第1部分中建立的先进封装的定义,只有台积电、三星、英特尔、Amkor和ASE涉及使用倒装芯片技术的大量逻辑先进封装。其中3家公司也在制造完整的硅晶圆,而另外两家公司则是外包组装和测试 (OSAT)。
这就是大量不同类型的倒装芯片封装类型开始出现的地方。我们将以台积电为例,然后扩展并将其他公司的封装解决方案与台积电的封装解决方案进行比较。台积电所有封装选项的最大区别在于基板材料、尺寸、RDL和堆叠。
在标准倒装芯片中,最常见的基板通常是有机层压板,然后用铜包覆。从这里开始,布线在两侧围绕核心构建,讨论最多的是味之素积层膜(ABF)。该内核在顶部构建了许多层,这些层负责在整个封装中重新分配信号和功率。这些承载信号的层是使用干膜层压和使用CO2激光器或紫外线激光器进行图案化构建的。
这就是台积电的专业知识开始在集成扇出 (InFO) 上发挥作用的地方。台积电没有使用ABF薄膜的标准流程,而是使用与硅制造更相关的工艺。台积电将使用东京电子镀膜机/显影器、ASML光刻工具、应用材料铜沉积工具以光刻定义再分布层。再分配层比大多数OSAT能够产生的更小、更密集,因此可以容纳更复杂的布线。此过程称为扇出晶圆级封装 (FOWLP)。ASE是最大的OSAT,提供FoCoS(基板上的扇出芯片),这是一种FOWLP形式,它也利用了硅制造技术。三星也有他们的扇出系统封装(FOSiP),主要用于智能手机、智能手表、通信和汽车。
借助 InFO-R (RDL),台积电可以封装具有高IO密度、复杂布线和多核芯片。使用InFO-R最常见的产品是苹果iPhone和Mac芯片,但也有各种各样的移动芯片、通信平台、加速器,甚至网络交换机ASIC。三星还凭借Cisco Silicon One在网络交换机ASIC扇出市场上取得了胜利。InFO-R所取得的进步主要与具有更多功耗和IO的更大封装尺寸相关。
有不少传言称AMD将为其即将推出的Zen 4客户端(如上图)和服务器CPU 提供扇出封装。SemiAnalysis可以确认基于Zen 4的桌面和服务器产品将使用扇出。然后,这个扇出将传统地封装在标准有机基板的顶部,该基板的底部有LGA 引脚。封装这些产品的公司以及转向扇出的技术原因将在后面揭晓。
标准封装将具有核心基板,然后在每侧有2到5级重新分布层 (RDL),包括更高级的集成扇出。台积电的InFO-SoIS(集成基板系统)将这一概念提升到了一个新的水平。它提供多达14个再分配层 (RDL),可在芯片之间实现非常复杂的布线。在靠近管芯的基板上还有一层更高密度的布线层。
台积电还提供InFO-SOW(晶圆上系统),它允许扇出一整片晶圆的大小,该晶圆可以封装几十块芯片。特斯拉Dojo1,它就利用了这种特殊的包装形式。特斯拉还将在HW 4.0上使用三星FOSiP。
最后,在台积电的集成扇出阵容中,还有InFO-LSI(本地硅互连)。InFO-LSI是 InFO-R,但在多个芯片下方有一块硅。这种局部硅互连将作为多个芯片之间的无源互连开始,但它可以在未来演变为有源(晶体管和各种IP)。它最终也将缩小到25微米,但我们认为第一代不会出现这种情况。第一个采用这种封装的产品将在后面展示。
脑海中浮现的最直接的对比很可能是英特尔的EMIB(嵌入式多芯片互连桥),但这并不是最好的选择。它更像英特尔的Foveros Omni或ASE的FOEB。让我们解释一下。
英特尔的嵌入式多芯片互连桥放置在传统的有机基板腔中,然后继续构建衬底。虽然这可以由英特尔完成,但EMIB的放置和构建也可以由传统的有机基板供应商完成。由于EMIB芯片上的大焊盘,以及沉积层压布线和通孔的方法,不需要在基板上极其精确地放置芯片。
英特尔通过继续使用现有的有机层压板和ABF供应链,放弃了更昂贵的硅基板材料和硅制造工艺。尽管目前由于短缺而非常紧张,但总的来说,这条供应链是商品化的。自2018年以来,英特尔的EMIB一直在出货,包括Kaby Lake G、各种FPGA、Xe HP GPU和包括Sapphire Rapids在内的某些云服务器CPU。目前所有EMIB产品都使用55微米,但第二代是45微米,第三代是40微米。
英特尔可以通过这个芯片将电源推送到上面的有源芯片。如果需要,英特尔还可以灵活地设计封装以在没有EMIB和某些小芯片的情况下运行。在英特尔 FPGA 的拆解后发现,如果英特尔发货的SKU 有要求,英特尔不会放置EMIB和有源芯片。这允许围绕某些部分的材料清单进行一些优化。最后,英特尔还可以通过仅在需要的地方使用硅桥来节省制造成本。这与台积电的CoWoS形成鲜明对比,后者的所有芯片都放置在单个大型无源硅桥的顶部。稍后会详细介绍,但台积电的InFO-LSI和英特尔的EMIB之间的最大区别在于基板材料和制造工艺的选择。
更复杂的是,日月光也有自己的2.5D封装技术,与英特尔的EMIB和台积电的InFO-LSI截然不同。它被用于AMD的MI200 GPU,该GPU将用于多台高性能计算机,包括美国能源部的Frontier exascale系统。ASE的FOEB封装技术与TSMC的InFO-LSI更相似之处在于它也是扇出。台积电使用标准硅制造技术来构建RDL,一个主要区别是ASE使用玻璃基板面板而不是硅。这是一种更便宜的材料,但它还有一些其他的好处,我们将在后面讨论。
ASE不是将无源互连管芯嵌入基板的空腔内,而是放置管芯,构建铜柱,然后构建整个RDL。在RDL之上,有源硅GPU芯片和HBM芯片使用微凸块进行连接。然后使用激光释放工艺将玻璃中介层从封装中移除,然后在使用标准倒装芯片工艺将其安装到有机基板上之前完成封装的另一面。
ASE 对 FOEB 与 EMIB 提出了许多想法,但有些是完全错误的。ASE 需要推销他们的解决方案是可以理解的,但让我们过滤掉噪音再来看看。EMIB的收益率不在80%到90%的范围内,EMIB的收益率接近100%。第一代EMIB在芯片数量方面确实存在缩放限制,但第二代没有。事实上,英特尔将发布有史以来最大封装的产品,这是一种采用第二代EMIB的 92毫米 x 92毫米BGA封装的先进封装。通过在整个封装中使用扇出和光刻定义的RDL,FOEB在布线密度和芯片到封装凸块尺寸方面确实保留了优势,但这也更加昂贵。
与台积电相比,最大的区别似乎是最初的玻璃基板材料与硅。部分原因可能是由于ASE的成本受到更多限制。ASE必须以更低的成本提供出色的技术来赢得客户的青睐。台积电是芯片大师,专注于他们熟悉的技术,台积电有将技术推向极致的文化,在这种推动下,他们最好选择硅。
现在回到台积电的其他先进封装选项。CoWoS平台还有CoWoS-R和CoWoS-L平台。它们与InFO-R和InFO-L几乎一比一对应。这两者之间的区别更多地与过程有关。InFO是一个芯片优先的工艺,首先放置芯片,然后构建围绕它构建RDL。使用CoWoS,先构建RDL,然后放置芯片。对于大多数试图理解先进封装的人来说,这种区别并不那么重要,所以今天我们将比较轻松地讨论这个话题。
最引人注目的是CoWoS-S(硅中介层)。它涉及采用已知良好的芯片,将其倒装芯片封装到无源晶圆上,该晶圆上具有图案化的导线。这就是CoWoS这个名字的由来,Chip on Wafer on Substrate。它是目前容量最大的2.5D封装平台。如第1部分所述,这是因为P100、V100和A100等英伟达数据中心GPU使用CoWoS-S。虽然英伟达的销量最高,但博通 TPU、亚马逊 Trainium、NEC Aurora、Fujitsu A64FX、AMD Vega、赛灵思 FPGA、Intel Spring Crest和Habana Labs Gaudi只是CoWoS使用的几个值得注意的例子。大多数采用HBM计算的重型芯片,包括来自各种初创公司的AI训练芯片都使用CoWoS。
为了进一步强调CoWoS的普及程度,我们要谈到AIchip。AIchip是一家中国台湾设计和IP公司,主要利用台积电的CoWoS平台进行与AI芯片相关的EDA、物理设计和产能工作。
台积电甚至没有参加CoWoS容量相关的所有会议,因为台积电已经销售了他们制造的所有产品,而且支持所有这些设计需要太多的工程时间。另一方面,台积电的客户集中度很高,因此台积电希望与其他公司合作。AIchip有点像中间人,即使一级客户预订了所有东西,AIchip仍然获得了一些库存量。但他们也只能得到他们想要的50%。
让我们来看看英伟达在做什么。在第三季度,他们的长期供应付款跃升至 69亿美元,更重要的是,英伟达预付了16.4亿美元,并将在未来再支付17.9美元。英伟达正在大量的超前预定供应产能,特别是针对CoWoS。
回到技术上,CoWoS-S多年来经历了演变,主要标志是中介层面积变大。由于 CoWoS平台使用硅制造技术,因此它遵守“光罩限制”的原则。使用193nm ArF光刻工具可打印的最大芯片尺寸为33mm x 26mm (858平方毫米 )。硅中介层被光刻定义其主要用途,就是连接位于其顶部的芯片的非常密集的电线。英伟达的芯片本身早已接近标线限制,但仍需要连接到封装的高带宽内存。
上图包含Nvidia V100,英伟达4年前推出的GPU,面积为 815平方毫米。一旦包含HBM,它就超出了光刻工具可以打印的光罩限制,但台积电想出了如何连接它们的办法。台积电通过光罩拼接的方法来实现这一点。台积电在这里增强了他们的能力,可以为硅中介层提供3倍大小的掩模版。鉴于标线缝合的局限性,英特尔EMIB、台积电LSI 和ASE FOEB方法具有优点。他们也不必为一个大型硅中介层支付高昂费用。
除了增加掩模版尺寸外,他们还进行了其他改进,例如将微凸块从焊料改为铜以提高性能/功率效率、iCap、新的TIM/lid封装等。
关于TIM/lid封装有一个有趣的故事。借助Nvidia V100,英伟达拥有了一个无处不在的HGX平台,该平台将运送到许多服务器ODM,然后发送到数据中心。可以应用于冷却器螺钉以实现正确安装压力的扭矩是非常具体的。这些服务器ODM在这些价值1万美元的GPU上过度拧紧了冷却器和芯片。英伟达将他们的A100换了一种封装,这种封装在芯片上有一个lid,而不是直接进行芯片冷却。当英伟达的A100和未来的Hopper DC GPU 仍然需要散发大量热量时,这种封装的问题就会出现。台积电和英伟达必须在封装上进行很多优化来解决这个问题。
三星也有类似于CoWoS-S的I-Cube技术。三星使用这种封装唯一主要客户是百度的人工智能加速器。
接下来我们介绍Foveros,这是英特尔3D芯片堆叠技术。Foveros不是一个芯片在另一个芯片上处于活动状态,而是说另一个芯片本质上只是密集的电线,Foveros涉及两个包含有源元件的芯片。有了这个,英特尔的第一代Foveros于 2020年6月在Lakefield混合CPU SOC中推出。这款芯片并不是特别大的容量或令人叹为观止,但它是英特尔许多首创的芯片,包括3D封装和他们的第一个混合CPU内核具有大性能核心和小效率核心的架构。它使用了55微米的凸点间距。
下一个Foveros产品是Ponte Vecchio GPU,经过多次延迟,应该会在今年推出。它将包括与EMIB 和Foveros 一起封装的47个不同的有源小芯片。Foveros 芯片到芯片的连接采用36微米的凸点间距。
未来,英特尔的大部分客户端阵容将使用3D堆栈技术,包括代号Meteor Lake、Arrow Lake、Lunar Lake的客户端产品。Meteor Lake将是第一款具有 Foveros Omni和36微米凸点间距的产品。第一个包含3D堆栈技术的数据中心CPU代号为Diamond Rapids,紧随Granite Rapids而来。我们将在本文中讨论其中一些产品使用哪些节点以及英特尔与台积电的关系。
Foveros Omni的全称是Foveros Omni-Directional Interconnect (ODI)。它弥合了EMIB和Foveros之间的差距,同时还提供了一些新功能。Foveros Omni可以用作两个其他芯片之间的有源桥接芯片,作为完全位于另一个芯片下方的有源芯片,或在另一个芯片顶部但悬垂的有源芯片。
Foveros Omni 从未像EMIB那样嵌入到基板内部,它在任何情况下都完全位于基板之上。堆的类型会导致一个问题,即封装基板与位于其上的芯片连接高度不同。英特尔开发了一种铜柱技术,可让他们将信号和功率传输到不同的z轴高度并通过芯片,因此芯片设计人员在设计3D异构芯片时可以有更多的自由度。Foveros Omni 将以36微米的凸点间距开始,但在下一代将下降到 25 微米。
我们要注意的是,DRAM还使用了先进的3D封装。HBM多年来一直在三星、SK海力士和美光使用先进封装。这些存储单元被制造并连接到TSV上,这些 TSV被暴露出来并形成了微凸点。最近,三星甚至开始引入DDR5和LPDDR5X堆栈,它们利用类似的堆栈技术来提高容量。SK海力士HBM 3将把垂直堆叠的12个芯片混合键合,每个芯片的厚度为30微米,并带有混合键合TSV。
混合键合是一种不使用凸点的技术,芯片通过硅通孔直接连接。如果我们回到倒装芯片工艺,就不会有凸起形成、助焊剂、回流或模子下填充芯片之间的区域。铜直接与铜相遇。实际过程非常困难,上面部分详细介绍了这一过程。在本系列的下一部分中,我们将深入探讨工具生态系统和混合键合的类型。混合键合比之前描述的任何其他封装方法都能实现更密集的集成。
最著名的混合键合芯片当然是最近宣布的AMD 3D堆栈缓存,该芯片将于今年晚些时候发布。它利用了台积电的SoIC技术。英特尔的混合键合品牌名为Foveros Direct,三星的版本名为X-Cube。Global Foundries公布了使用混合键合的Arm测试芯片。销量最高的混合键合半导体公司不是台积电,今年甚至明年也不会是台积电。生产混合键合芯片最多的公司实际上是拥有CMOS图像传感器的索尼(Sony)。事实上,假设你有一部高端手机,你的口袋里可能就有一个包含混合键合CMOS图像传感器的设备。如第1部分所述,索尼已将间距缩小至6.3微米,而AMD的V-cache的间距为17微米。
目前,索尼推出了2堆栈和3堆栈版本。在2堆栈中,像素位于电路的顶部。在3堆栈版本中,像素堆叠在电路顶部的DRAM缓冲缓存的顶部。随着索尼希望将像素晶体管从电路中分离出来,并用多达4层的硅制造出更先进的相机,进步仍在继续。上面的图片展示了索尼的顺序堆叠,其间距为0.7微米。
另一个即将到来的混合键合的大批量应用来自长江存储技术公司的Xtacking。长江存储使用晶圆对晶圆键合技术将CMOS外围堆叠在NAND门下方。我们在这里详细介绍了这项技术的好处,但简而言之,与包括三星、SK海力士、美光、Kioxia和西部数据在内的任何其他NAND制造商相比,它允许长江存储在给定NAND层数的情况下安装更多NAND单元。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。