在中国台湾省的台北国际电脑展(Computex)的一场记者会上,Nvidia首席执行官黄仁勋(Jensen Huang)与联发科(MediaTek)首席执行官蔡力行(Rick Tsai)共同宣布,Nvidia将提供GPU小芯片(Chiplet)给联发科,与Nvidia的人工智能(AI)与绘图IP一起整合到还在设计阶段的一款车舱(in-cabin)应用系统单芯片(SoC)。
联发科首席执行官蔡力行(左)与Nvidia首席执行官黄仁勋(右),在台北国际电脑展宣布联发科将在车舱内应用的SoC整合Nvidia的GPU Chiplet。(来源:Nvidia)
Chiplet对Nvidia来说并不陌生,此宣布也为该技术增加了一些新的验证──许多半导体制造商都寄望Chiplet能在接下来几年为延续摩尔定律(Moore's Law)寿命带来助力。Chiplet背后的概念也不是全新,产业界从数十年前就开始打造多芯片模组(MCM)。
例如一家美国厂商Mostek Corporation (EETT编按:该公司在1970年代末期被United Technologies收购,后来又被STMicroelectronics合并)在1979年就打造了一款32Kbit的DRAM元件MK4332D,是将两颗16Kbit的MK4116型号DRAM芯片放进双腔陶瓷封装中。英特尔(Intel)在1995年末发表的Pentium Pro芯片,则是将CPU与SRAM芯片封装为单颗元件。
这些多芯片模组让Mostek与Intel能超越半导体工艺的限制,打造“超越摩尔定律”(more than Moore)的封装元件。因此,以MCM形式共同封装的半导体元件已经存在好一段时间;从很多方面来看,Chiplet技术也只是MCM概念的延伸──虽然还搭配了更多技术。
或许最早使用当代Chiplet技术的是2011年发表的Xilinx Virtex-7 2000T FPGA,该款元件,以及不久后发表的Virtex-7 580HT,采用了由Xilinx与台积电(TSMC)共同研发的硅中介层(silicon interposer)上Chiplet技术;台积电仍持续发展该硅中介层技术,即目前被称为CoWoS (Chip on Wafer on Substrate)的解决方案。
Chiplet的两大优势
Xilinx的Virtex-7 2000T与580HT两款元件展现了Chiplet技术的两大优势。Virtex-7 2000T以硅中介层在单封装中整合了4颗28纳米的FPGA Chiplet,让Xilinx能以单片28纳米裸晶打造更大的FPGA元件。中介层让半导体制造商能透过将裸晶以拼贴马赛克的方式组装在一起,成为更大的元件,突破晶圆工艺的极限。
Virtex-7 580HT是将2000T的4颗FPGA Chiplet中的一颗,以28Gbps收发器Chiplet替代;而在那个时候,要以生产FPGA芯片的主流28纳米数位CMOS工艺打造28Gbps收发器是不可能的。
因此,Chiplet的第二个优势是能混合搭配以不同工艺节点生产的裸晶,甚至很可能来自不同的晶圆代工厂。与主流或尖端数位工艺节点明显不同,但同样重要的工艺包括类比工艺、存储器工艺──像是DRAM工艺,特别是高宽带存储器(HBM)堆叠──以及高电流、高电压工艺,还有像是打造光电元件的砷化镓(GaAs)工艺,与打造功率半导体元件的碳化硅(SiC)工艺。
迄今仍应用有限
不过商用Chiplet的产业生态系还未完全成形,也就是在一个市场上,来自众多供应商的不同Chiplet,可以透过多家封装厂商轻易混搭、整合到多芯片元件中。目前Chiplet技术的采用主要限于几家厂商。
像是在2022年收购了Xilinx、也接收其Chiplet技术的AMD;还有Intel──第一款采用该公司专有嵌入式多芯片互连桥接(EMIB)以及先进互连汇流排(AIB)等Chiplet封装技术的,是在2016年发表、原属Altera的Stratix 10系列FPGA元件,而Altera已在2015年被Intel收购。
AMD与Intel的Chiplet技术都证实相当成功,如今广泛应用于两家公司各自的产品线,包括旗舰处理器。有一个最极端的例子是,Intel打造了一款在单封装中整合了47颗主动Chiplet ──在Intel被称为“砖”(tile)──的Ponte Vecchio GPU (现在被命名为Data Center GPU Max系列),号称内含超过1,000亿个晶体管,锁定高性能运算应用;这对目前的单芯片来说是不可能的。
Intel的Ponte Vecchio GPU──现在被命名为Data Center GPU Max──在单封装中整合了47颗主动Chiplet,内含超过1,000亿颗晶体管。(来源:Intel)
缺乏标准化介面
阻碍Chiplet广泛商用化的原因之一,是缺乏实体与电气介面标准。Intel将AIB转为开放性标准,并已透过产业联盟CHIPS Alliance正式化,但也有其他竞争的Chiplet标准提案。其中两个最受瞩目的,一是由开放运算计划(OCP)基金会倡导、名字有点奇怪的开放性裸晶对裸晶(die-to-die,D2D)互连规格“线束”(bunch of wires,BoW)。
另一个同为开放性D2D互连规格,由AMD、Arm、日月光(ASE)、Google Cloud、Intel、Meta、微软(Microsoft)、高通(Qualcomm)、三星(Samsung)与台积电共同开发的UCIe (Universal Chiplet Interconnect Express)。Intel首席执行官Pat Gelsinger在去年9月的Intel Innovation大会上曾提到该公司参与UCIe联盟,当时联盟成员是80家公司;几个月之后,该联盟成员已经增加到超过100家公司。
除了互连绕线规格,还有高速SerDes PHY──也就是将数据位元以多Gbps速率透过那些线路推送的实体层信令(signaling)规格──也同样重要。不过被广泛使用的乙太网与PCIe串列通信介面,都是为了比D2D互连更长的信号传输距离所设计,现有的封装对封装、电路板对电路板、机箱对机箱信令架构,每位元传输所消耗的功率都高得多,因此被认为并不适合做为D2D互连标准。
数家IP供应商,包括芯动科技(Innosilicon)、楷登电子(Cadence)与新思科技(Synopsys)都有为D2D通信提供高速PHY IP。还有一家新创公司Eliyan加入UCIe PHY的竞争,最近发表第一款采用其NuLink D2D PHY IP的芯片实作;Eliyan的PHY技术聚焦3个D2D互连的关键因素:每线路(per-lane)宽带、每位元传输功耗,以及针对有机基板的依距离位元传输速率性能。
Eliyan最近完成了第一款采用现有NuLink PHY的试产Chiplet测试,该元件采用台积电的N5 CMOS工艺,整合了四个各有16线路的通道,每通道都有16位元线路与一对时脉信号。该公司在一个有机基板上组装了10个测试Chiplet,即5对间距不同的收/发器,以测试有机基板上的NuLink PHY覆盖范围。
那些收/发器Chiplet配对的间距分别为19~21.5mm、15~17.5mm、10~12.5mm、5~7.5mm与2~4.5mm。收/发器配对之间的间距变化,代表每个线路Chiplet信号线凸块的不同位置。
Eliyan以利用台积电N5 CMOS工艺试产的Chiplet在有机基板上测试其UCIe PHY,各有5对距离不同的收/发器Chiplet。(来源:Eliyan)
那些试产Chiplet在测试基板的所有间距,都达成了每线路32Gbps的单向传输,以及40Gbps的双向传输(每一向20Gbps,同时进行)的性能。所有间距、每线路32Gbps的单向传输,在芯片上量测到的功耗低于每位元0.5pJ。
在UCIe联盟完成必要的标准──包括标准PHY──开发,以及包括封装、测试厂商在内的关键大量公司加入Chiplet产业生态系之前,预期Chiplet市场将维持小规模,该技术也仅限于像是AMD、Intel、联发科与Nvidia等有本钱可以走在前面的大型半导体厂商采用。
然而,UCIe联盟庞大且快速成长的成员公司名单,显示人们对Chiplet技术兴趣浓厚,因此市场动力可能已经存在,Chipet技术也可能在短短几年之内就跃居主流。
(参考原文:Are Chiplets Enough to Save Moore's Law?,by Steve Leibson)