一种集成FPGA和DSP芯粒的异构系统级封装

FPGA开发圈 2024-06-28 12:03



摘要:将多个异构芯粒集成在一起进行封装是一种具有广阔前景且成本效益高的策略,它能够构建出既灵活又可扩展的系统,并且能有效加速多样化的工作负载。在此基础上,我们提出了Arvon,它使用嵌入式多芯片互连桥(EMIBs)将一个14nm FPGA芯粒和两个紧密排列的高性能22nm DSP芯粒集成在了一起。芯粒间通过一个1.536-Tb/s的高级接口总线(AIB)1.0接口和一个7.68-Tb/s的AIB 2.0接口进行互连。Arvon是可编程的,支持从神经网络(NN)到通信信号处理的各种工作负载。每个DSP芯粒在半精度浮点运算中提供了4.14 TFLOPS的峰值性能,同时保持了1.8 TFLOPS/W的能效。我们还开发了一个能够为FPGA和DSP分配工作负载的编译程序,以此来优化系统的性能和资源利用率。我们使用36-µm-pitch微凸块实现的AIB 2.0接口达到了4 Gb/s/pin的数据传输速率,包括适配器在内的能效为0.10–0.46 pJ/b。其Shoreline带宽密度达到 1.024 Tb/s/mm,areal带宽密度达到1.705 Tb/s/mm²。




I. 介绍




随着机器学习、机器人技术和5G/6G通信等领域的快速发展[1], [2], [3], [4],用于这些领域的DSP工作负载正变得越来越动态和多样化。一个灵活且计算效率高的硬件系统能够很好地满足这些需求。这样的系统可以集成多个组件,包括CPU、FPGA以及DSP加速器等,其中CPU或FPGA提供了系统所需的灵活性,DSP加速器提供了高效的内核加速。


实现这类系统的一种方法是设计并制造一个单片系统级芯片(SoC)。然而,构建一个大型SoC有着高昂的时间成本和经济成本。对此,作为一种成本效益高且可行的替代方案,采用2.5D或3D芯粒集成的异构系统级封装(SiP)为构建大规模系统提供了一条有希望的途径,以实现与单片集成相媲美的性能,同时避免了与单片集成相关的高成本、高风险和高工作量。SiP由称为芯粒(chiplet)的互连组件组成。每个芯粒都包含一个功能模块,可以在最适合的技术节点上制造,以获得最佳性能和效率。由于每个芯粒在尺寸上更小、功能上更专一,因此其设计复杂性会降低,而产量则会提高。通过选择已知良片(KGD)来组装SiP,可以提高系统产量。在未来设想的芯片生态中,我们可以从不同的供应商那里采购经过验证的芯片,并在构建多样化的系统时重复利用它们,这样就能有效地克服在快速开发新系统过程中遇到的挑战和障碍。


图1展示了一种多功能加速器的SiP解决方案,它整合了一个FPGA芯粒、一个DSP加速器芯粒,以及可能包括的扩展芯粒,比如模数转换器(ADC)或光学收发器。这种异构SiP设计能够灵活地将各种动态DSP工作负载——从机器学习到通信信号处理,映射到其上。FPGA芯粒提供必要的自适应性,DSP芯粒贡献高效的计算能力,而扩展芯粒则提供了与前端(FE)组件如传感器、无线或光接口的连接。在SiP内部,芯粒之间的芯片间接口对于数据传输至关重要,它必须提供足够高的带宽,以确保与单片SoC相匹敌的性能,同时维持较低的每比特能耗,确保整个解决方案保持竞争力。


图1  Arvon SiP通过异构集成FPGA、DSP和FE芯粒,实现灵活的工作负载映射


近期的研究展示了在具有高带宽和高效的die-to-die接口的SiP中集成芯粒的成果[5], [6], [7], [8], [9], [10], [11]。在文献[5]中,两个双Arm核心芯粒集成在chip-on-wafer-on-substrate(CoWoS)上,具有8-Gb/s/pin的低电压封装内互连(LIPINCON)接口。在文献[6]中,36个深度神经网络(DNN)加速器芯粒使用25-Gb/s/pin的地参考信号(GRS)接口[7]集成在有机基板上。在文献[8][9]中,四个运行时可重配置的通用数字信号处理器(UDSP)集成在具有 1.1 Gb/s/pin SNR-10 接口的硅片互连结构 (Si-IF) 中介层上。IntAct[10]则在活性硅中介层上集成了六个16核芯粒,使用了1.2-Gb/s/pin的3-D-Plug接口。这些成果代表了同构集成的典型应用,通过将模块化芯粒的多个实例拼接在一起,有效地扩展了计算系统的规模。


在Arvon中,我们展示了不同类型芯粒的异构集成,以构建一个用于DSP工作负载的多功能加速器。Arvon由一个14nm FPGA芯粒和两个通过嵌入式多芯片互连桥(EMIB)技术[12], [13]集成的22nm DSP芯粒组成。我们原型化了第一代和第二代开放式高级接口总线(AIB)芯片间接口,分别称为AIB 1.0和AIB 2.0,用于连接这些芯粒。结果在一个SiP中得到展示,该SiP能够有效地加速各种机器学习和通信DSP工作负载,同时保持较高的硬件利用率。这项工作还展示了AIB 2.0接口,该接口在能效为 0.1 pJ/b的情况下实现了1 Tb/s/mm 的海岸线带宽密度和 1.7 Tb/s/mm²的面积带宽密度。


本文的其余部分安排如下:第二部分概述了Arvon SiP。第三部分详细阐述了AIB接口的设计,包括物理层(PHY)I/O、时钟分布和总线适配。第四部分深入探讨了DSP芯粒及其矢量引擎设计的细节。第五部分讨论了各种工作负载的映射。第六部分介绍了硅片测量和系统评估。最后,第七部分对本文进行了总结。




II. ARVON 系统概述




Arvon系统概览如图2所示。该系统包括一个FPGA芯粒和两个DSP芯粒实例,分别命名为DSP1和DSP2。DSP2是DSP1的物理旋转版本。FPGA使用EMIB技术通过AIB 1.0接口连接到DSP1,而DSP1使用EMIB技术通过AIB 2.0接口连接到DSP2。Arvon提供了三种操作模式,如图2所示。在模式1和模式2中,FPGA分别连接到DSP1和DSP2,并将通用计算核心卸载到DSP上面。这些通用核心包括在神经网络(NN)和通信工作负载中至关重要的矩阵乘法(MMM)和二维卷积(conv)。在模式3中,DSP1和DSP2被组合起来以增强计算能力。DSP2也可以被FE芯粒(例如光学tile或 ADC tile)取代,以实现完整的通信或传感系统。


图2  Arvon SiP支持的数据流模式: 在模式1和模式2中,FPGA连接到其中一个DSP; 在模式3中,FPGA同时连接到两个DSP


A

DSP芯粒


DSP 芯粒可为计算密集型工作负载提供卸载和加速功能。DSP芯粒的设计如图2所示。芯粒的两侧都放置了芯片间接口。在西侧,有24个AIB 1.0接口通道,为与FPGA的通信提供1.536 Tb/s的带宽。在东侧,有24个AIB 2.0接口通道,为与另一个DSP的通信提供7.68 Tb/s的带宽。芯粒包含三个DSP集群,每个集群提供1024个16位半精度浮点处理元素(PE)。每个集群最多使用8个AIB 1.0接口通道和8个AIB 2.0接口通道进行输入输出。使用低抖动环形锁相环(PLL)为DSP集群以及AIB 1.0和AIB 2.0接口生成时钟。沿着芯粒顶部和底部有两排通用输入/输出(GPIO)端口,便于进行全局配置和调试。


B

FPGA主机芯粒


FPGA在实现Arvon的灵活性方面发挥着关键作用。FPGA的可编程逻辑被用来支持各种任务,例如为DSP执行转置和洗牌等数据处理操作。此外,FPGA也可以用来提供DSP上没有的特殊功能,从而能够满足完整的处理需求。


在Arvon中,FPGA充当主机的角色,采用如图3所示的基于指令的处理器形式出现。一个简单的主机处理器配备了指令存储器、用于存储输入输出数据数据和权重数据的数据存储器,以及一个用于管理和协调与DSP芯粒进行数据传输的直接内存访问(DMA)单元。指令用于在运行时配置和重新配置DSP,引导数据存储器和DSP之间的数据流,以及执行DSP的前处理和后处理。


当FPGA内的主处理器触发并从指令存储器中读取首条指令时,工作负载的执行便正式启动。这些指令详细说明了所需的所有信息,包括数据内容、寄存器访问地址、存储器地址、总线地址、DMA进行读写操作的数据长度,以及执行的先后顺序。根据指令,主机处理器生成AXI总线事务以访问发送到DSP的DSP配置寄存器。同时,它也会发布DMA命令,用以从数据存储器读取或写入数据,以及向DSP进行数据的读取和写入。鉴于DSP中矢量引擎的处理时间较快,包括主机处理器在内的FPGA实现得到了高度利用,以最小化延迟并防止任何潜在的瓶颈。


图3  FPGA主机实现示例




III. AIB 芯片间接口




在 DSP 芯粒内,其西侧集成了24个 AIB 1.0 接口通道[14],东侧集成了24个 AIB 2.0 接口通道[14]。AIB 通道由两层组成:适配器层和物理层 I/O 层。适配器层负责协调 DSP 核与物理层 I/O 之间的数据传输。它负责这两个域之间的数据成帧和同步。状态机用于启动 AIB 链路并启用自动时钟相位调整。这种调整有助于确定数据的眼宽和中心。在 AIB 2.0 中,适配器还支持可选的数据总线反转 (DBI),从而减少了总线切换活动并提高了能效。


AIB 接口的物理层实现了源同步、短距离、低延迟和并行单端 I/O。在双数据速率(DDR)模式下,AIB 1.0的每个I/O端口通过全轨信号传输,提供从1 Mb/s到2 Gb/s的带宽范围。而AIB 2.0则进一步在DDR模式下,通过0.4 V至全轨信号的摆幅变化,实现了从1 Mb/s至4 Gb/s的带宽,从而显著提升了数据传输速率。单个 AIB 1.0 通道由 96 个引脚组成,其中包括2个 TX 时钟引脚、2个 RX 时钟引脚、20 个 TX 数据引脚、20 个 RX 数据引脚以及用于边带控制的和冗余的附加引脚。相比之下,单个 AIB 2.0 通道由 102 个引脚组成,其中包括两个 TX 时钟引脚、两个 RX 时钟引脚、40 个 TX 数据引脚、40 个 RX 数据引脚以及用于边带控制的和冗余的附加引脚。AIB 2.0 在 AIB 1.0 的基础上进行了改进,它将每个引脚的数据传输速率和每个通道的数据引脚数量增加了一倍,从而将数据传输带宽提高了四倍。此外,AIB 2.0 还通过使用低摆动信号提高了能效。AIB 1.0 和 AIB 2.0 的对比总结见表 I。值得注意的是,AIB 1.0 与 AIB 2.0 有着相似的设计结构。


表 I


A

AIB 2.0 适配器


AIB 适配器管理 DSP 核与 PHY I/O 层之间的数据传输。数据路径包括 TX 端的串行器和 RX 端的并行器。图 4 展示了一个数据传输实例。在芯粒 1 中,一个 AIB 2.0 TX 通道每次从 DSP 核收集四条 80 位宽的数据流,DSP 核的时钟频率为 500 MHz。使用两级 2:1 多路复用器实现的串行器将并行数据流转换为单条 80 位宽的数据流进行传输。在可选用的 DBI 之后,80位数据被分为高低两个40位的段,这两个数据段分别发送至40个TX I/O单元的data0和data1引脚。在 DDR 模式下这些TX I/O单元以2 GHz的频率运行,每个单元每次传输2位数据,从而实现了4 Gb/s的有效数据传输速率。差分的2 GHz TX 时钟与数据一起被转发到芯粒2。在芯粒2 中,一个 AIB 2.0 RX 通道负责接收来自40个 RX I/O 单元的80位宽数据。在 DDR 模式下,数据以2 GHz的频率进行采样。随后,接收到的数据流通过并行器处理,其采用两级1:2的解复用器实现,将数据恢复成四路80位宽的数据流。接收到的TX端的时钟信号通过可调节的延时线进行微调,以适配RX端I/O单元的采样时钟需求。


1)自动时钟相位调整:在链路的初始化阶段,RX 时钟相位会进行调整,以便在最佳点对 RX 数据进行采样。适配器采用自动 RX 时钟相位调整机制。TX负责发送一个已知的伪随机二进制序列(PRBS),而后RX则利用可配置的延迟线扫描从TX接收到的时钟信号的延迟,从而监测潜在的错误。通过分析接收到的PRBS序列中的错误模式,RX端能够估算出眼图的边界。这样做的目的是将延迟以及采样点设置在估计的眼图中点。


2)数据总线反转(DBI):AIB 2.0支持数据总线反转,这有效地减少了单端及源同步接口中的转换和同步开关输出(SSO)噪声。图5展示了一个1:19比例的DBI编码器和解码器。在TX端,80位数据由四个并行DBI编码单元进行编码。每个单元获取19位数据线的值(在图5中由icurr[18:0]表示),并计算先前编码的数据(iprev[18:0])中已发生转换的位数。如果计数超过10(20比特的一半),则DBI编码单元会反转这些位,并给DBI位分配一个高(HIGH)值。如果计数等于10,并且前一个DBI位已经是高(HIGH),则DBI位保持高(HIGH)。如果上述条件都不满足,数据保持不变,DBI位被设置为低(LOW)。然后,DBI位与编码后的19位数据结合,打包成20位的TX数据,并发送到20个I/O单元。在RX端,采用四个并行DBI解码单元。如果DBI位(接收到的20位数据块的最高位)为高(HIGH),则每个单元将反转接收到的19位数据位,如果DBI位为低(LOW),则数据保持不变。


图4  AIB 2.0 通道顶层图和自动时钟相位调整

图5  1:19比例DBI编码器(上)和解码器(下)


B

AIB 2.0 I/O


图6展示了一种紧凑型统一 AIB 2.0 I/O 单元设计的原理图和布局。为了实现36 µm微凸块间距的目标,该I/O 单元的布局经过了精心的优化,每个单元都在相应的微凸块下连接,以确保布局符合规定的凸块间距。统一I/O单元支持多种模式。首先,传输方向可以灵活设置为TX或RX模式,这不仅有助于进行冗余修复,也便于芯粒间的灵活连接。在TX模式下,为了降低功耗,RX组件的时钟被门控;反之,在RX模式下,TX组件的时钟被门控。其次,对于 AIB 1.0 和 AIB 2.0,I/O 信号摆幅可设置为全轨,而对于 AIB 2.0,摆幅还可以降低至 0.4 V。第三,传输模式可以设置为单数据速率(SDR)模式或双数据速率(DDR)模式。在DDR模式下,数据0和数据1被串行化后进行传输,其中数据1比数据0延迟半个时钟周期。这意味着,在TX时钟的正边沿,数据0被发送至驱动器,而在负边沿,数据1被发送。在RX端,这一过程则相反,数据通过并行化恢复。SDR模式仅使用数据0,它在TX时钟的正边沿发送到驱动器。最后,I/O 单元可设置为在时钟和其他边带信号的异步模式下运行。


图6  一个统一AIB I/O单元的原理图和布局

图7  基于 CMOS 的 TX 驱动器(左)和基于 strongARM 的 RX(右)示意图


1)TX驱动器:如图7(左)所示,TX驱动器的设计采用了分段技术,由四部分组成。该设计允许将最多四段驱动器连接起来,以实现可调节的驱动强度,这样就可以根据通道变化灵活调整,同时平衡传输速度和功耗之间的关系。每个驱动器段包括一个用于下拉的NMOS晶体管,以及一个可切换的PMOS或NMOS上拉驱动器,后者可以根据需要提供全轨或低摆幅的驱动力。在低摆幅模式下,NMOS上拉驱动会被适度增强,以确保与下拉驱动力的平衡。此外,系统还允许通过设置弱上拉和下拉来配置初始开机值。


2)RX缓冲器:RX缓冲器的设计区分了全轨输入和低摆输入。对于全轨输入信号,采用了标准单元缓冲器进行处理;而对于低摆输入信号,则使用了再生比较器,如图7(右)所示。该比较器是StrongARM锁存器的优化版本[15], [16],无需校准即可将平均偏移降低到 4.1 mV。此外,设计中还利用PMOS增强了对低波动输入的检测。该设计采用了一个简单的基准电压发生器。比较器可在 2 GHz DDR 频率下可靠地检测低至 0.38 V 的输入。


3)凸块图:图8展示了一个AIB 2.0通道的12×17凸块图。该通道由40个TX数据引脚、40个RX数据引脚、2个TX转发时钟引脚、2个RX转发时钟引脚以及18个边带和冗余引脚组成。TX和RX凸块的设计是对称的,使得在EMIB上每对TX-RX的布线长度对等。其总共拥有80个数据引脚,每个引脚的数据速率为4 Gb/s,一个AIB 2.0通道提供了总共320 Gb/s的带宽。该设计的微凸块间距为 36 µm,通道岸线宽度为 312.08 µm,带宽密度达到 1024 Gb/s/mm。


图8  一个AIB 2.0通道的凸块图

图9  两级时钟分布


C

时钟分布


对于像AIB这样的高速并行I/O接口来说,必须采用低偏斜时钟分布,以确保给定通道中的所有数据引脚相位正确地对齐。如图9所示,我们在每个AIB通道中采用两级时钟分布。上层是一个均衡的H型树状结构,它覆盖了整个通道;而下层则由一个局部时钟网格构成。这种双层设计有效限制了H树的深度,确保了各分支之间更好的平衡。此外,局部时钟网格还能提供更稳定的时钟汇(clock sinks),且不会显著增加功耗。因此,整个时钟网络能够将最坏的时钟偏斜控制在8ps以内。H树和网状时钟网络都是使用IC Compiler II的多源时钟树综合(MSCTS)流程创建和评估的。




IV. DSP集群




如图10所示,每个DSP集群包括一个灵活的矢量引擎、一个旁路缓冲器、一个用于数据成帧的旋转块、两个用于在多个 AIB 通道之间打包和解包数据的 兼容AXI 的总线转换器,以及一个与AXI兼容的系统总线。此外,还包括一个总线枢纽,用于在矢量引擎和测试器、AIB 1.0接口或AIB 2.0接口之间建立连接。旁路缓冲器支持Arvon的模式2操作,可绕过 DSP1 直接连接 FPGA 和 DSP2。通过这种连接,FPGA 的 AIB 1.0 事务可直接转发到 DSP2 的 AIB 2.0 事务。旋转块反转了AIB接口的通道索引顺序。例如,将 DSP1 连接到 DSP2(DSP1 的旋转版本)时,DSP1 的通道 1-8 连接到 DSP2 的通道 24-17,需要 DSP2 的旋转块来颠倒连接顺序。


图10  DSP集群(上)和矢量引擎(下)


A

矢量引擎


DSP集群的核心部件是矢量引擎,它由四个 2-D 对称阵列实例组成[17]。每个脉动阵列包含256个PE,每个 PE 以半精度浮点格式(FP16)执行乘法运算。这256个PE被分成八个单元,每个单元包含32个PE。每个32-PE单元的求和结果随后输入到一个可配置的加法器树中。可配置的加法器树可以通过选择将八个单元中的哪些单元求和在一起,从而灵活地支持各种工作负载映射。这种设计提供了更短的部分求和累积路径,并通过并发工作负载实现了更高的利用率,这与经典的脉动阵列有所区别。整个矢量引擎总共提供1024个PE,以支持矩阵-矩阵乘法(MMM)和卷积(conv)。最后,实现了一个全局I/O缓冲器和调度器,其使用多播或轮询仲裁技术将输入分配给PE阵列。


通过指令配置,矢量引擎便于输入流的连续计算。矢量引擎还具有高度的映射灵活性。首先,四个脉动阵列可以独立映射。此外,每个阵列内的256个PE可以32个PE为单位进行配置,可适应 1 到 8 个独立的工作负载。


B

系统总线和总线转换器


AIB 连接由兼容 AXI 的点对点系统总线抽象出来。总线转换器处理跨多个AIB通道的数据打包和解包。它还支持突发模式,以最大限度地利用带宽进行流式传输。系统总线的通道和信号在图11中进行了说明。系统总线由四个通道组成:读命令通道、写命令通道、读数据通道和写数据通道。一个主设备能发出一个带有32位地址和6位突发长度的读写命令,以及512位写数据和写命令。在响应读命令时,从设备将512位读数据发送回主设备。系统总线和AIB通道之间的转换由总线转换器完成。我们在设计总线转换器时采用了基于报头的流方法,以实现高带宽和低延迟。一个矢量引擎最多可使用八个 AIB 通道,以确保最佳利用率。每个AIB通道可以灵活地配置为主设备或从设备,允许根据需要调整TX/RX带宽。


图11  兼容AXI的系统总线:总线转换器(左)以及总线接口通道和信号(右)




V. 工作负载映射




Arvon作为一个多功能的计算平台,它能够支持不同规模的计算任务,并且这些任务的复杂性可以在运行过程中根据需要动态调整。为确保高效的数据处理,必须建立一套系统方法,将工作负载映射到最佳硬件配置和数据布局上。


为了实现这一目标,我们开发了一套编译程序,如图 12 所示。工作负载首先被分割成几个部分,即使用 conv 核或 MMM 核的部分,或二者兼有的部分,这些部分可以通过适当的配置直接映射到Arvon DSP上。此外,一些计算核之间的中间步骤可由FPGA主机执行。具体来说,conv的配置是基于滤波器和输入的大小(R × S × C)制定的,而MMM的配置是基于矩阵的尺寸制定的。随后,工作负载中的conv和MMM核心将根据既定的指令和内存数据配置,被调度并分配给Arvon DSP的矢量引擎。这一分配过程综合考虑了多个关键因素,包括提高资源利用率、增强数据的可重用性,以及最小化端到端的延迟。


图12  工作负载映射的编译流程说明


矢量引擎采用静态权重方案,其核心的权重分配给 PE。为了将MMM映射到矢量引擎[17],权重矩阵的每一行都被分配给PE,从而有效地将一维矢量分配到二维阵列中。具有相同权重矩阵的行可以分配给同一组PE。在涉及多个核的多租户场景中,不同权重矩阵的行可以分配给不同的分区,在图12和13中用p1–p8表示。分区输出被定向到可配置加法器树的相应输入端,确保计算出单独的和作为输出。


conv 的权重映射与多租户 MMM 的情况类似,因为其可能涉及多个卷积核。图13展示了两个卷积操作示例的映射。每个卷积核的大小为 R × S × C,并通过在二维中编织三维切片将其展开到二维 PE 阵列中。在滑动卷积窗口下的三维输入激活元素也相应地展开到二维PE数组上。输入激活在PE数组内部保留,以便通过相邻PE之间的脉动数据转发实现水平和/或垂直重用。对于单个卷积核的情况(如图 13 中的第一个示例),可以不考虑分区边界进行映射,从而实现高效利用。然而,当存在多个卷积核时,例如图13中的第二个示例,每个卷积核都需要与分区边界对齐,从而降低了利用率。


图13  不同内核大小的映射示例




VI. 芯片测量与比较




DSP 芯粒采用 22 nm FinFET 技术制造,面积为 32.3 mm²,如图 14 所示。为了构建 Arvon SiP,我们将一个 14 nm FPGA 芯粒和两个 DSP 芯粒通过两个十层 EMIB 相互封装和互连,同时使用 36 微米间距的微凸块。AIB 1.0 侧的平均导线长度为 1.5 毫米,而 AIB 2.0 侧的平均导线长度为 0.85 毫米。


在室温和 0.85 V 的芯粒电压下,每个 DSP 集群的最高工作频率为 675 MHz,功耗为 0.76 W。在这种配置下,DSP 芯粒的峰值性能为 4.14 TFLOPS,功耗效率达到 1.8 TFLOPS/W。在 0.85 V I/O 电压和 800-MHz 时钟(受 FPGA 时钟频率限制)条件下,AIB 1.0 I/O 的功耗为 0.44 pJ/b,包括适配器在内为 0.85 pJ/b,传输延迟为 3.75 ns。在室温条件下,输入/输出电压为 0.4 V,时钟频率为 2 GHz,AIB 2.0 输入/输出每比特消耗 0.10 pJ,包括适配器在内为 0.46 pJ/b,传输延迟为 1.5 ns。AIB 2.0 接口的能耗分解如图 15 所示。适配器的能耗占绝大部分,为 0.32 pJ/b,约占总能耗的 69%。另一方面,I/O 单元仅消耗 0.10 pJ/b,约占总能耗的 22%。I/O 单元能耗较低的原因是利用了 0.4 V 的低信号摆幅。


图14  测试装置、Arvon多芯粒封装和DSP芯粒显微照片

图15  AIB 2.0 接口的能耗分解

图16  能效与区域带宽密度(左)和海岸线带宽密度(右)的关系


Arvon的AIB I/O 接口与最先进的 SiP I/O 接口的比较见表II。与 AIB 接口类似,SNR-10 [8]、3-D-Plug [10] 和 LIPINCON [5] 也是并行 I/O 接口。其中,LIPINCON 的数据传输率最高,达到 8 Gb/s/pin,I/O 能耗最低,在 0.3 V 信号摆幅下仅为 0.073 pJ/b;3-D-Plug 的带宽密度最高,达到 900 Gb/s/mm 的海岸线;SNR-10 的 I/O 尺寸最小,仅为 137 µm²。GRS [7] 是一种高速串行 I/O 接口,可提供 25 Gb/s/pin,能效为 1.17 pJ/b。我们的 AIB 2.0 原型提供了一个极具吸引力的解决方案,其 I/O 能耗仅为 0.10 pJ/b,如果包括适配器,则为 0.46 pJ/b。如表 II 所示,它还实现了 1.0-Tb/s/mm 的海岸线和 1.7-Tb/s/mm² 面积的最高带宽密度。图 16 比较了芯片间接口的能效、面积带宽密度和海岸线带宽密度。与 GRS 接口相比,AIB 2.0 接口的能效、面积带宽密度和海岸线带宽密度分别提高了 2.5 倍、3.4 倍和 5 倍,优于其他接口。


我们展示了可以利用Arvon的各种应用的工作负载映射,包括深度神经网络(DNN)、多输入多输出(MIMO)信号处理和图像滤波。工作负载大小、总体吞吐量和利用率在表III中进行了总结。除了常用的DNN模型外,128×16 MIMO检测工作负载利用128个接收天线来检测16个单天线用户。此任务涉及的处理包括最小均方误差(MMSE)滤波操作,该操作需要使用矩阵-矩阵乘法(MMM)计算滤波矩阵,然后使用MMM应用滤波矩阵。为了执行这些操作,需要使用尺寸为32×256、256×32、32×32和32×1的MMM核来完成此工作负载。这些计算核可以高效地映射到PE阵列,利用率达到100%。图像滤波工作负载涉及16个5×5的滤波器和16个3×3的滤波器,这些二维滤波器应用于1280×720的图像帧,这些操作均需要采用卷积核来进行。不过,由于滤波器尺寸较小,其利用率低于其他工作负载。这些示例工作负载的结果表明,Arvon的异构SiP架构为神经网络(NN)和通信处理提供了灵活性、性能和效率。


表II

表III




VII. 总结




Arvon是一个异构系统级封装(SiP),它使用嵌入式多芯片互连桥(EMIBs)集成了一个FPGA芯粒和两个DSP芯粒。这种集成方式使Arvon不但能够拥有FPGA作为主机的灵活性,还能拥有DSP的高计算性能和效率。


SiP 的主要特点是采用并行、短距离的 AIB 1.0 和 AIB 2.0 接口,用于无缝连接芯粒。输入/输出(I/O)单元设计紧凑,以数字为主,并且可综合。这些单元非常灵活,能够支持多种模式。此外,它们还采用了依赖模式的电源门控和两级时钟分布,从而提高了能效。我们使用 36 微米间距微凸块实现了低摆幅 4-Gb/s AIB 2.0 接口,能效为 0.10 pJ/b,若包括适配器在内则为 0.46 pJ/b,同时拥有1.024-Tb/s/mm 海岸线和 1.705-Tb/s/mm²的面积的带宽密度。该接口采用 与AXI 兼容的总线协议进行抽象,简化了主机和 DSP 的使用。


Arvon中的每个DSP芯粒都采用低延迟的脉动阵列架构,拥有3072个FP16 PE。这些PE按层次分为三个集群,每个集群包含八个32-PE单元。这种细粒度的组织结构允许同时并行执行多个工作负载。每个 DSP 芯粒可提供 4.14 TFLOPS 的峰值性能,功耗效率为 1.8 TFLOPS/W。我们开发了一套将工作负载映射到 Arvon 上的系统程序,并演示了 Arvon 可以加速的各种工作负载,以实现具有竞争力的性能和利用率。


致谢


所表达的观点、意见和/或发现皆属于作者本人,不应被解释为代表国防部或美国政府的官方观点或政策。


感谢电子科技大学集成电路科学与工程学院黄乐天老师与陈飞扬同学在翻译和校正中提供的帮助。


参考文献

[1] W. Jiang, B. Han, M. A. Habibi, and H. D. Schotten, “The road towards 6G: A comprehensive survey,” IEEE Open J. Commun. Soc., vol. 2, pp. 334–366, 2021.


[2] H. Tataria, M. Shafi, A. F. Molisch, M. Dohler, H. Sjöland, and F. Tufvesson, “6G wireless systems: Vision, requirements, challenges, insights, and opportunities,” Proc. IEEE, vol. 109, no. 7, pp. 1166–1199, Jul. 2021.


[3] S. Bianco, R. Cadene, L. Celona, and P. Napoletano, “Benchmark analysis of representative deep neural network architectures,” IEEE Access, vol. 6, pp. 64270–64277, 2018.


[4] G. Menghani, “Efficient deep learning: A survey on making deep learning models smaller, faster, and better,” 2021, arXiv:2106.08962.


[5] M.-S. Lin et al, “A 7-nm 4-GHz arm-core-based CoWoS chiplet design for high-performance computing,” IEEE J. Solid-State Circuits, vol. 55, no. 4, pp. 956–966, Apr. 2020.


[6] B. Zimmer et al, “A 0.32–128 TOPS, scalable multi-chip-modulebased deep neural network inference accelerator with ground-referenced signaling in 16 nm,” IEEE J. Solid-State Circuits, vol. 55, no. 4, pp. 920–932, Apr. 2020.


[7] J. W. Poulton et al, “A 1.17-pJ/b, 25-Gb/s/pin ground-referenced singleended serial link for off- and on-package communication using a process- and temperature-adaptive voltage regulator,” IEEE J. Solid-State Circuits, vol. 54, no. 1, pp. 43–54, Jan. 2019.


[8] U. Rathore, S. S. Nagi, S. Iyer, and D. Markovic, “A 16 nm 785 GMACs/J 784-core digital signal processor array with a multilayer switch box interconnect, assembled as a 2 × 2 dielet with 10 µm-pitch inter-dielet I/O for runtime multi-program reconfiguration,” in Proc. IEEE Int. Solid- State Circuits Conf. (ISSCC), Feb. 2022, pp. 52–54.


[9] S. S. Nagi, U. Rathore, K. Sahoo, T. Ling, S. S. Iyer, and D. Markovic, “A 16-nm 784-core digital signal processor array, assembled as a 2 × 2 dielet with 10 µm pitch interdielet I/O for runtime multiprogram reconfiguration,” IEEE J. Solid-State Circuits, vol. 58, no. 1, pp. 111–123, Jan. 2023.


[10] P. Vivet et al, “IntAct: A 96-core processor with six chiplets 3D-stacked on an active interposer with distributed interconnects and integrated power management,” IEEE J. Solid-State Circuits, vol. 56, no. 1, pp. 79–97, Jan. 2021.


[11] W. Tang et al, “Arvon: A heterogeneous SiP integrating a 14 nm FPGA and two 22 nm 1.8 TFLOPS/W DSPs with 1.7 Tbps/mm2 AIB 2.0 interface to provide versatile workload acceleration,” in Proc. IEEE Symp. VLSI Technol. Circuits, Jun. 2023, pp. 1–2.


[12] R. Mahajan et al, “Embedded multi-die interconnect bridge (EMIB)— A high density, high bandwidth packaging interconnect,” in Proc. IEEE 66th Electron. Compon. Technol. Conf. (ECTC), May 2016, pp. 557–565.


[13] G. Duan, Y. Kanaoka, R. McRee, B. Nie, and R. Manepalli, “Die embedding challenges for EMIB advanced packaging technology,” in Proc. IEEE 71st Electron. Compon. Technol. Conf. (ECTC), Jun. 2021, pp. 1–7.


[14] AIB Specifications. Accessed: Dec. 13, 2023. [Online]. Available: https://github.com/chipsalliance/AIB-specification 


[15] B. Razavi, “The StrongARM latch [A circuit for all seasons],” IEEE Solid StateCircuits Mag., vol. 7, no. 2, pp. 12–17, Jun. 2015.


[16] M. Miyahara, Y. Asada, D. Paik, and A. Matsuzawa, “A low-noise selfcalibrating dynamic comparator for high-speed ADCs,” in Proc. IEEE Asian Solid-State Circuits Conf., Nov. 2008, pp. 269–272.


[17] S.-G. Cho, W. Tang, C. Liu, and Z. Zhang, “PETRA: A 22 nm 6.97 TFLOPS/W AIB-enabled configurable matrix and convolution accelerator integrated with an Intel Stratix 10 FPGA,” in Proc. Symp. VLSI Circuits, Jun. 2021, pp. 1–2.


[18] Intel Stratix 10 TX 2800 Specification. [Online]. Available: https:// www.intel.com/content/www/us/en/products/sku/210283/intel-stratix10-tx-2800-fpga/specifications.html


本文转载自:半导体行业观察

【预约直播】

FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 152浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 157浏览
  • 国产光耦合器因其在电子系统中的重要作用而受到认可,可提供可靠的电气隔离并保护敏感电路免受高压干扰。然而,随着行业向5G和高频数据传输等高速应用迈进,对其性能和寿命的担忧已成为焦点。本文深入探讨了国产光耦合器在高频环境中面临的挑战,并探索了克服这些限制的创新方法。高频性能:一个持续关注的问题信号传输中的挑战国产光耦合器传统上利用LED和光电晶体管进行信号隔离。虽然这些组件对于标准应用有效,但在高频下面临挑战。随着工作频率的增加,信号延迟和数据保真度降低很常见,限制了它们在电信和高速计算等领域的有效
    腾恩科技-彭工 2024-11-29 16:11 106浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 53浏览
  • 在电子技术快速发展的今天,KLV15002光耦固态继电器以高性能和强可靠性完美解决行业需求。该光继电器旨在提供无与伦比的电气隔离和无缝切换,是现代系统的终极选择。无论是在电信、工业自动化还是测试环境中,KLV15002光耦合器固态继电器都完美融合了效率和耐用性,可满足当今苛刻的应用需求。为什么选择KLV15002光耦合器固态继电器?不妥协的电压隔离从本质上讲,KLV15002优先考虑安全性。输入到输出隔离达到3750Vrms(后缀为V的型号为5000Vrms),确保即使在高压情况下,敏感的低功耗
    克里雅半导体科技 2024-11-29 16:15 119浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 58浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 70浏览
  • By Toradex胡珊逢简介嵌入式领域的部分应用对安全、可靠、实时性有切实的需求,在诸多实现该需求的方案中,QNX 是经行业验证的选择。在 QNX SDP 8.0 上 BlackBerry 推出了 QNX Everywhere 项目,个人用户可以出于非商业目的免费使用 QNX 操作系统。得益于 Toradex 和 QNX 的良好合作伙伴关系,用户能够在 Apalis iMX8QM 和 Verdin iMX8MP 模块上轻松测试和评估 QNX 8 系统。下面将基于 Apalis iMX8QM 介
    hai.qin_651820742 2024-11-29 15:29 150浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 84浏览
  • 光耦合器作为关键技术组件,在确保安全性、可靠性和效率方面发挥着不可或缺的作用。无论是混合动力和电动汽车(HEV),还是军事和航空航天系统,它们都以卓越的性能支持高要求的应用环境,成为现代复杂系统中的隐形功臣。在迈向更环保技术和先进系统的过程中,光耦合器的重要性愈加凸显。1.混合动力和电动汽车中的光耦合器电池管理:保护动力源在电动汽车中,电池管理系统(BMS)是最佳充电、放电和性能监控背后的大脑。光耦合器在这里充当守门人,将高压电池组与敏感的低压电路隔离开来。这不仅可以防止潜在的损坏,还可以提高乘
    腾恩科技-彭工 2024-11-29 16:12 117浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 62浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 57浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦