Chiplet(芯粒):大算力芯片的翅膀

汽车电子与软件 2022-08-17 21:22

作者:Erick.X,复睿微首席架构专家


Chiplet 概述

过去几十年来,半导体行业一直按照摩尔定律的规律发展,凭借着芯片制造工艺的迭代,使得每18个月芯片性能提升一倍。但是当工艺演进到5nm,3nm节点,提升晶体管密度越来越难,同时由于集成度过高,功耗密度越来越大,供电和散热也面临着巨大的挑战。Chiplet(芯粒)技术是SoC集成发展到当今时代,摩尔定律逐渐放缓情况下,持续提高集成度和芯片算力的重要途径。工业界近期已经有多个基于Chiplet的产品面市,Intel甚至发布了集成47颗芯片的Ponte Vecchio系列,Chiplet技术已经是芯片厂商比较依赖的技术手段了。

相比传统Monolithic芯片技术,Chiplet技术背景下,可以将大型单片芯片划分为多个相同或者不同的小芯片,这些小芯片可以使用相同或者不同的工艺节点制造,再通过跨芯片互联和封装技术进行封装级别集成,降低成本的同时获得更高的集成度。通常来说,由于光刻掩膜版的尺寸限定在33mm * 26mm,单个芯片的面积一般不超过800mm^2,通过多个芯片的片间集成,可以在封装层面突破单芯片上限,进一步提高集成度。而且从工艺制造良率的Bose-Einstein模型:



其中A代表芯片面积,D0代表缺陷密度,n代表掩膜版层数相关系数。单芯片的面积越大,良率越低,对应制造成本也越高。同时,在当前主流芯片架构中,信号处理部分通常为数字逻辑,随着工艺演进相同功能情况下面积也会进一步缩小,但是各类接口部分通常为模拟电路,随着工艺演进相同功能情况下面积几乎不会缩小,因此合理地将不用功能有效划分到不同工艺节点的芯片上,可以更高效利用现有制造工艺,有效降低成本。

Chiplet技术带来上述高集成度和低成本等优势的同时,也面临着诸多技术挑战,总体来说可以概括为:物理上如何拼接多个芯片;设计上如何将大芯片划分为多个小芯片;以及如何标准化接口协议做到不同芯片产品标准化拼接。具体来说可以分为几个不同的方面:


  1. 超高速、超高密度和超低延时的封装技术,用来解决Chiplet之间远低于单芯片内部的布线密度、高速可靠的信号传输带宽和超低延时的信号交互。目前主流的封装技术包括但不限于MCM、CoWoS、EMIB等。

  2. 基于Chiplet的架构设计,一方面考虑不同Chiplets之间如何进行功能划分和架构定义,另一方面考虑多个Chiplets如何进行有效互联和扩展,实现高效灵活可扩展的架构,避免多Chiplets之间出现信号死锁、流量拥塞等功能和性能问题。

  3. 标准化的多Chiplets之间交互的通信互联协议,用于指导和约束不同芯片的接口设计和标准化对接。目前由Intel、AMD、ARM、ASE、Google、 Meta、Microsoft、Qualcomm、Samsung和TSMC共同开发和制定的UCIe(Universal Chiplet Interconnect Express)已经发布第一版标准。


由于篇幅限制,本文基于上述三个方面,简单介绍下当前业界主流实现方式,探讨不同解决方法的优缺点和设计考量,后续会附上各个部分的详细介绍。


支持Chiplet的底层封装技术

封装技术目前主要由TSMC、ASE、Intel等公司来主导,包含从2D MCM到2.5D CoWoS、EMIB和3D Hybrid Bonding。本文主要介绍目前工业界主流的2D和2.5D封装技术和其优缺点。


1. MCM(Multi-Chip Module)


Multi-chip Module


MCM一般是指通过Substrate(封装基板)走线将多个芯片互联的技术。通常来说走线的距离和范围可以在10mm~25mm,线距线宽大约10mm量级,单条走线带宽大约10Gbit/s量级。由于MCM可以通过基板直接连接各个芯片,通常封装的成本会相对较低,但是由于走线的线距线宽比较大,封装密度相对较低,接口速率相对较低,延时相对较大。

2. CoWoS(Chip-on-Wafer-on-Substrate)


CoWoS是TSMC主导的,基于interposer(中间介质层)实现的2.5D封装技术,其中interposer采用成熟制程的芯片制造工艺,可以提供相比MCM更高密度和更大速率的接口。目前TSMC主流的CoWoS技术包括:

CoWoS-S:基础CoWoS技术,可以支持超高集成密度,提供不超过两倍掩膜版尺寸的interposer层,通常用于集成HBM等高速高带宽内存芯片。



CoWoS


CoWoS-R:基于前述CoWoS-S技术,引入InFO技术中的RDL(Redistribution Layer),RDL 中介层由聚合物和铜迹线组成,具有相对机械柔韧性,而这种灵活性增强了封装连接的可靠性,并允许新封装可以扩大其尺寸以满足更复杂的功能需求,从而有效支持多个Chiplets之间进行高速可靠互联。



CoWoS-R


CoWoS-L:在上述CoWoS-S和InFO技术的基础上,引入LSI(Local Silicon Interconnect)技术,LSI 芯片在每个产品中可以具有多种连接架构(例如 SoC 到 SoC、SoC 到小芯片、SoC 到 HBM 等),也可以重复用于多个产品,提供更灵活和可复用的多芯片互联架构。


CoWoS-L


相比于MCM,CoWoS技术可以提供更高的互联带宽和更低的互联延时,从而获得更高的性能。同时,受限于interposer的尺寸(通常为2倍掩膜版最大尺寸),可以提供的封装密度上限相对比较有限,并且由于interposer的引入,需要付出额外的制造成本和更高的技术复杂度,以及随之而来的整体良率的降低。


3. EMIB(Embedded Multi-die Interconnect Bridge)


EMIB


EMIB是Intel主导的2.5D封装技术,使用多个嵌入式包含多个路由层的桥接芯片,同时内嵌至封装基板,达到高效和高密度的封装。由于不再使用interposer作为中间介质,可以去掉原有连接至interposer所需要的TSVs,以及由于interposer尺寸所带来的封装尺寸的限制,可以获得更好的灵活性和更高的集成度。

总体而言,相比于前述介绍的MCM、CoWoS和InFO/LSI技术,EMIB技术要更为优雅和经济高效,获得更高的集成度和制造良率。但是EMIB需要封装工艺配合桥接芯片,技术门槛和复杂度较高。


Chiplet架构挑战和洞察

基于Chiplet的架构设计,首先要考虑不同Chiplets之间如何进行功能划分和架构定义,目前主流的设计思路大致可以分为两类


第一类

基于功能划分到多个Chiplets,单个Chiplet不包含完整功能集合,通过不同Chiplets组合封装实现不同类型的产品,典型代表为Huawei Lego架构(Kunpeng & Ascend)、AMD Zen2/3架构。


Huawei Lego架构:采用compute die(compute + memory interface)和I/O die组合的形式进行不同Chiplets功能拆解。在compute die(CPU/AI)设计时采用先进的工艺,获得顶级的算力和能效,在I/O die设计时采用成熟工艺,在面积与先进工艺差别不大的情况下获得成本收益。并且不同的Chiplets的数量和组合形式都可以灵活搭配,从而组合出多种不同规格的云端高性能处理器产品。


Huawei Lego


AMD Zen3架构:采用CCD(compute)和CIOD(memory interface + I/O)组合的形式进行不同Chiplets功能拆解。在CCD设计时采用最先进的工艺,获得顶级的算力和能效,在CIOD设计时采用成熟工艺,在面积与先进工艺差别不大的情况下获得成本收益。并且CCD本身按照两个4C8T cluster组合的形式设计,可以适应AMD从Desktop到Server的架构需求,根据场景选择CCD数量和设计对应的CIOD即可,灵活度非常高。

AMD Zen3


第二类


单个Chiplet包含较为独立完整的功能集合,通过多个Chiplets级联获得性能的线性增长,典型代表为Apple M1 Ultra、Intel Sapphire rapids系列。

Apple M1 Ultra:通过Apple自研的封装技术UltraFusion来堆叠两颗M1 Max芯片,使得两颗芯片之间拥有超过2.5TB/s带宽且极低延时的互联能力。基于这个互联的延时带宽能力,可以使得M1 Ultra直接获得两倍M1 Max的算力,同时在软件层面依然可以将M1 Ultra当做一个完整芯片对待,而不会增加额外的软件修改和调试的负担。


Apple M1 Ultra


Intel Sapphire Rapids:通过两组镜像对称的相同架构的building blocks,组合4个Chiplets,获得4倍的性能和互联带宽。每个基本模块包含计算部分(CHA & LLC & Cores mesh, Accelerators)、memory interface部分(controller, Ch0/1)、I/O部分(UPI,PCIe)。通过将上述高性能组件组成基本的building block,再通过EMIB技术进行Chiplet互联,可以获得线性性能提升和成本收益。


Intel Sapphire Rapids


基于Chiplet的架构设计,同时要考虑多个Chiplets如何进行有效互联和扩展,实现高效灵活可扩展的架构,避免多Chiplets之间出现信号死锁、流量拥塞等功能和性能问题。由于芯片内部互联通常为可靠连接假设下的并行数据传输,而芯片之间的互联通常为不可靠连接假设下的串行数据传输,根据芯片片上和片间互联架构的组合和流量收敛情况,目前主流的设计思路和应用场景大致分为两大类


第一类

片上片间相同架构,流量全打平或基本打平。典型代表如Cerebras,采用从tile到single die到wafer scale engine完全相同的互联架构。另一个典型代表是Tesla DoJo,采用InFO-SoW的封装和芯片四边全部放置I/O接口的方式实现片内每个方向10TBps带宽,跨片每边4TBps,SoW集成后单边带宽9TBps。

CS-1 Wafer Scale Engine


DoJo D1 Chip



第二类


片上片间架构相似,片间流量按照一定比例收敛。典型代表一个是前述的Huawei Bufferless Multi-Ring架构,片上流量会收敛到分布式的各个跨片接口;另一个典型代表是前述的Apple M1 Ultra,片上流量收敛到UltraFusion集中交换部分。


Bufferless Multi-Ring


从计算负载的角度,当单个计算任务计算密度较高,超出单芯片算力范围的时候,需要多个芯片协同来完成,此时跨片数据交互也需要提供和片上数量级相当的带宽和延时,才能更有效利用算力,提高计算效率。典型的任务类型是AI的训练任务,前述Cerebras和DoJo的互联架构对这类场景有较强优势。当计算任务数量庞大,单个任务负载较小,跨片流量通常是要远小于片上流量的,此时采用流量收敛策略更为合适。

从互联架构的实现方式和实现策略角度,通常根据网络的拓扑、路由策略、防死锁机制等又可进一步细分,本文由于篇幅限制不再详细介绍。


Chiplet协议介绍

工业界大约从2016年开始就在逐步尝试基于Chiplet的芯片设计,经过长时间的摸索,已经在封装工艺、架构设计上有了深厚的积累和长足的进步,在这样的背景和契机之下,由Intel、AMD、ARM、ASE、Google、 Meta、Microsoft、Qualcomm、Samsung和TSMC共同开发和制定的UCIe 1.0在2022年3月正式推出。

UCIe标准的初衷和目标,是建立一套Chiplet技术相关的设计和制造等各个环节的参考标准,从而使得不同设计和制造厂商的芯片可以无缝集成,从而打造封装层级的完整灵活的芯片开发生态系统。基于Chiplet技术和UCIe标准,可以实现超过单个掩膜版尺寸的芯片面积,获得更大尺寸、更高集成度的高性能芯片。同时基于标准的UCIe,可以使能各类不同工艺和不同大小的芯片和IP在封装层面进行集成,有效降低开发成本,同时减少开发周期。


Figure. Initial motivation of UCIe



UCIe主要规定的规格和标准包含以下几个层面(具体内容本文不再赘述):

  • 协议层:定义了高层级通信协议标准,初始版本采用成熟的PCIe加CXL协议。

  • 中间层:定义了Chiplets之间的适配标准,包括Link状态管理,参数对齐,信号的选择校验,以及可能的重传机制。

  • 物理层:定义了电气信号连接的标准、物理链路设计标准,包括电气信号定义,时钟定义,Link和Sideband训练。


Figure. Layering with UCIe


总结

综上所述,经过数年的发展,Chiplet技术已经逐渐走向成熟和商用,成为芯片厂商比较依赖的技术手段,也被认为是未来芯片行业发展的重要方向。目前在底层封装层面, 已经有TSMC、Intel等厂商提供CoWOS、EMIB等先进封装,可以提供超高速、超高密度和超低延时的Chiplet互联;在标准协议层面,也有众多大厂领衔发布的UCIe 1.0版本,提供了跨片接口设计的指导和约束。而在架构设计层面,如何基于Chiplet设计高性能、高效率、灵活可扩展的互联架构,如何基于实现和商业视角进行芯片间的功能划分仍然是Chiplet技术中最大的挑战。


Reference:

  • https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/3DFabric.htm

  • https://ase.aseglobal.com/public/en/technology/focos.html

  • https://www.intel.com/content/www/us/en/silicon-innovations/6-pillars/emib.html

  • S. Naffziger, K. Lepak, M. Paraschou, and M. Subramony, “2.2 amd chiplet architecture for high-performance server and desktop products,” in 2020 IEEE International Solid-State Circuits Conference-(ISSCC). IEEE, 2020, pp. 44–45

  • A. Biswas, “Sapphire rapids,” in 2021 IEEE Hot Chips 33 Symposium (HCS). IEEE Computer Society, 2021, pp. 1–22.

  • T. Wang, F. Feng, S. Xiang, Q. Li and J. Xia, "Application Defined On-chip Networks for Heterogeneous Chiplets: An Implementation Perspective," 2022 IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2022, pp. 1198-1210, doi: 10.1109/HPCA53966.2022.00091.

  • https://www.apple.com/tn/newsroom/2022/03/apple-unveils-m1-ultra-the-worlds-most-powerful-chip-for-a-personal-computer/

  • Rocki, Kamil, et al. "Fast stencil-code computation on a wafer-scale processor." SC20: International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2020.

  • https://www.youtube.com/watch?v=j0z4FweCy4M

  • Parasar, Mayank, et al. "Swap: Synchronized weaving of adjacent packets for network deadlock resolution." Proceedings of the 52nd Annual IEEE/ACM International Symposium on Microarchitecture. 2019.

  • Yin, Jieming, et al. "Modular routing design for chiplet-based systems." 2018 ACM/IEEE 45th Annual International Symposium on Computer Architecture (ISCA). IEEE, 2018.

  • https://www.uciexpress.org/specification

  • Xia, Jing, et al. "Kunpeng 920: The first 7-nm chiplet-based 64-Core ARM SoC for cloud services." IEEE Micro 41.5 (2021): 67-75.

  • https://www.anandtech.com/Gallery/Album/8123#3


  • 关于复睿微

复睿微电子是世界 500 强企业复星集团出资设立的先进科技型企业。公司成立于2022 年 1 月,目标成为世界领先的智能出行时代的大算力方案提供商,主要从事汽车智能座舱、ADS/ADAS 芯片研发,以领先的芯片设计能力和人工智能算法, 通过底层技术赋能,推动汽车产业的创新发展,提升人们的出行体验。


汽车电子与软件 主要介绍汽车电子软件设计相关内容,每天分享一篇技术文章!
评论
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 116浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 164浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 202浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 58浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 141浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 119浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 106浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 92浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 222浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 69浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 61浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦