【光电集成】AI光通信时代,CPO光电封装有哪些变化?

今日光电 2025-02-05 18:02

今日光电

     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!


----追光逐电 光引未来----

以下内容摘自并来源于“开源证券”的“深度拆解CPO:AI智算中心光互联演进方向之一”报告。

光电共封装(Co-Packaged Optics,CPO)是一种新型的光电子集成技术。光电共封装基于先进封装技术将光收发模块和控制运算的专用集成电路(ASIC)芯片异构集成在一个封装体内,形成具有一定功能的微系统。光电共封装技术进一步缩短了光信号输入和运算单元之间的电学互连长度,在提高光模块和 ASIC 芯片之间的互连密度的同时实现了更低的功耗,是解决未来大数据运算处理中海量数据高速传输问题的重要技术途径。



变化 1:硅光技术加速发展,CPO 硅光光引擎不断成熟。

硅光光引擎作为 CPO 的技术核心,在 AI 光通信时代加速成熟。硅光技术是实现光子和微电子集成的理想平台。在当前“电算光传”的信息社会下,微电子/光电子其技术瓶颈不断凸显,硅基光电子具有和成熟的 CMOS 微电子工艺兼容的优势,有望成为实现光电子和微电子集成的最佳方案。硅光光引擎作为当前 CPO 光引擎的主流方案,硅光技术的成熟有望进一步带动 CPO 的发展。


(1)从硅光技术应用来看,硅光技术作为硅光光模块、CPO 和 OIO 光引擎底层技术,高速时代基于硅光光通信的拓展,有望进一步催化硅光光引擎技术成熟。

硅光作为光通信技术,有望充分受益于 AIGC 的发展,硅光子技术在数据中心中芯片侧的 OIO、设备侧 CPO、设备间光模块以及数据中心间的相干光通信都有望迎来进一步发展。


在光模块应用中,在不同速率和距离的与传输距离下,硅光子技术相比 III-V 器件竞争优势有演进的过程,随着大数据中心对联结带宽的不断升级,多通道技术成为必须,高集成高速硅光芯片成为性价比更优越的选项,目前 800G 光模块已在全球范围内逐步进入商用部署阶段。


同时,长期来看,我们认为随着硅光光模块低成本、多通道大带宽的技术优点有望得到进一步凸显,硅光光模块的渗透率有望得到进一步提升,特别是在 1.6T、3.2T 等高速时代,有望进一步促进硅光技术成熟,CPO 中硅光光引擎有望得到进一步发展。

根据 Lightcounting 的预测,光通信行业已经处在硅光技术规模应用的转折点,使用基于硅光光模块市场份额有望从 2022 年的 24%增加到 2028 年的 44%。据Yole 预测,硅光收发器 2022 年市场规模约为 14.85 亿美元,2027 年市场规模有望合计达 54.13 亿美元,其中 CPO 光引擎市场规模有望达 2.59 亿美元。


在OIO应用中,硅光方案高度契合OIO发展需求,OIO(In-Package Optical I/O)是一种基于芯片的光互联解决方案,与计算芯片(CPU、GPU、XPU)集成在同一封装中,旨在实现分布式计算系统中它们之间的无缝通信(跨板、机架和计算行),在相同能效情况下,OIO 的边带宽密度与 UCle、NVlink、PCIe 等电互连相当,但传输距离远超电互连。OIO 基于光互连低延迟、高带宽和低能耗的特点,非常适用于计算结构(即内存语义结构),有望成为为机器学习扩展、资源分解和内存池定制的新数据中心架构的关键驱动力。


硅光子技术目标就是在芯片上集成光电转换和传输模块,使芯片间光信号交换成为可能:电流从计算核心流出,到转换模块通过光电效应转换为光信号发射到电路板上铺设的超细光纤,到另一块芯片后再转换为电信号,其本身具备尺寸小、功耗低、同 CMOS 工艺兼容、可集成、成本低等优点,且由于采用与集成电路兼容的工艺制作,可方便地在电学芯片的内部引入硅基集成光路,实现光通信电路与控制电路和驱动电路的紧密集成,进一步降低成本,因此硅基光互连是实现片间光互连的理想平台。


我们认为,OIO 目前仍处于起步阶段,与计算芯片联合设计仿真优化,在物理层和协议层方面都需要进一步创新,不同于 CPO 主要针对网络架构,针对计算架构的 OIO 中硅光+Chiplet 或成为主流解决方案,头部芯片厂商及硅光初创公司/设计公司企业不断投入研究,随着 AI 技术对算力的持续需求,芯片间数据传输不断增大,OIO 的技术优势有望不断凸显,与 OIO 技术通源的 CPO 技术也有望得到相应的重视和发展。据 Yole 预测,OIO 市场有望从 2022 年的 500 万美元增长到 2033 年的23 亿美元。

(2)从硅光发展节奏来看,全球企业积极推动硅光技术发展,硅光产业链进一步完善。

目前,硅光技术产业仍在发展,产业链不断构建,已初步覆盖了前沿技术研究机构、设计工具提供商、器件芯片模块商、Foundry、IT 企业、系统设备商、用户等各个环节。2010 年左右,硅光技术的研发体制开始由学术机构推进转变为厂商主导。

硅光子技术主要有以下几种发展模式:

一是国家项目支持,如美国 2014 年发布“国家光子计划”,出资打造集成光子工艺研究院,随后在 2015 年投资 6.1 亿美元成立集成光子学创新机构 AIM Pho.tonics,组织产业链各环节共同打造标准化的集成光子平台。全球其他相关研究项目和机构,如欧盟 Leti 硅光光模块量产研究计划等。

二是 Intel、IBM 等 IT 巨头的投入,Intel、IBM 从 2003 年左右开始致力于硅光子技术研究,进行了长期、巨额投入。三是小型初创公司早期靠风险资金进入,后期被
大企业并购再持续投人,该模式已成为硅光子的一种重要发展模式。四是一些新崛起的初创公司,如 Acacia、SiFotonics 等。


(3)从硅光产业机会来看,硅光方案景气度不断提高,硅光技术有望成厂商切入 CPO 产业契机。

第 25 届中国国际光电博览会(CIOE 2024)于 2024 年 9 月 11-13日在深圳国际会展中心举办。在 AI 的拉动下,从光电芯片及光器件/光引擎到光模块在向高速率方向快速升级,同时以硅光/CPO/薄膜铌酸锂/相干等为代表的新技术成熟度不断提升,其中硅光技术成熟度和市场关注度显著提升,众多企业布局硅光技术。

会展上:

  • 旭创科技展示了 800G/400G 全系列硅光模块,并积极推广 1.6T 硅光方案;
  • 新易盛 400G 和 800G 硅光模块均已经入量产阶段,最新的 1.6T 硅光模块也已经完成开发,并进入样品阶段;
  • 华工正源的 1.6T OSFP DR8 光模块搭载自研单波 200G 硅光芯片,并表示沿着自研硅光芯片的技术路线,目前已具备从基于各种化合物光芯片到器件、模块、智能终端全系列产品的垂直整合能力,下一步将布局 3.2T 及更高速率的光模块、CPO 和光 I/O;
  • 源杰科技年初推出的硅光大功率激光器,25 毫瓦的 100G DR1 搭配硅基的调制器,2024 年有机会实现小批量出货,50 毫瓦和 70 毫瓦也已经送样,其中 70 毫瓦可以做到一分四,即做到 400G DR4 的规格;
  • Sicoya(熹联光芯)展出最新硅光技术及解决方案,包括 1.6T DR8 PIC、800G DR8 PIC、800G2xFR4PIC、200G/lane PIC wafer 等产品,并现场进行单通道 200G 硅光产品的性能演示;
  • SiFotonics 同样展示了最新研发和量产的全系列硅光产品,包括 800G/1.6TAI/DC 智算互联应用的 200G Ge/Si PIN PD 和 4x200G SiPho MZM PIC,现场演示了和 Anristu 硅光 PCIe 光互联解决方案,目前已创 7000 万硅光芯片交付新纪录。


变化 2: 龙头厂商积极布局 CPO,进一步催化 CPO 产业发展。
各大芯片厂商积极布局 CPO 技术,硅光 CPO 原型机不断推出。CPO 方案众多,各大芯片厂商推出 CPO 方案,其中 Intel、Broadcom、Raonvus、AMD、Marvell、Cisco 等均有在近年 OFC 展上推出 CPO 原型机,不断实现交换容量的提升和功耗的降低,Nvidia 及 TSMC 等厂商也展示了自己的 CPO 计划。

我们认为,一方面,其中基于硅光光引擎的 CPO 技术为主流方案,有望充分受益于硅光技术的发展;另一方面,龙头厂商的入局,有望进一步加速 CPO 产业链的完善和发展。


Intel 一直致力于可插拔光模块和微环调制器技术的研究和开发,并在 2020 年后利用其硅光工艺平台来搭建基于微环调制器的 CPO 系统。

在“OFC 2020”会议上,Intel 推出首款 CPO 样机,由 1.6Tbit/s 的硅光引擎与 12.8Tbit/s 的可编程以太网交换机集成,并在架构设计上考虑了散热。在 2024 年 IEEE ISSCC 上,Intel 公布了其 CPO 技术的最新进展,信号传输速率达到 4x64Gb/s,同时保持了仅为 1.3pl/bit 的低系统功耗;

Intel 和 Ayar Labs 合作多年,Supercomputing 2023 大会上展示了将 2 颗 4Tb/s带宽的 TeraPHY OIO chiplet 嵌入到 Intel Agilex FPGA 中,并由两个 SuperNova 光源支持每个 chiplet 上 8 根光纤的 64 个光通道的高速光通信;

Broadcom 在“OFC 2022”会议上,博通推出了首款 CPO 交换机,将 25.6TbpsTomahawk4 交换芯片与光引擎相结合;2023 年推出 Strata Tomahawk XGS5,交换容量为 51.2Tbps,功耗仅为 5.5W,速率为 800Gbps;

在“OFC 2024”会议上,Broadcom宣布已向客户交付了业界首款 51.2Tbps CPO 以太网交换机—Bailly,该产品将八个基于硅光子的 6.4-Tbps 光学引擎与 StrataXGS Tomahawk5 交换芯片集成在一起,使光互连的功耗降低了 70%,硅面积效率提高了 8 倍;

Ranovus 在“OFC 2021”会议上发布了 Odin 品牌模拟驱动 CPO 2.0 架构,该架构由 Ranovus、IBM、TE 和 Senko 共同开发,通过消除重定时功能和实施 IC 有效的单芯片解决方案,实现了 40%的功耗降低和成本节约;Ranovus 在“OFC 2023”上展示了将 800G 直驱硅光引擎与 AMD 的 FPGA 芯片相结合;

Marvell 在“OFC 2022”会议上展示了其首款 CPO 样机,带宽为 1.6Tbit/s;在“OFC 2023”会议上发布了 51.2Tbit/s 的交换芯片;Cisco 在“OFC 2023”上展示了基于 CPO 技术的 25.6T 交换机原型,有八个 3.2T硅光引擎,每个引擎配备八个 400G-FR4 硅光芯片,每个光引擎单通道 100Gbps。

Nvidia 一直在开发硅光 CPO,在“2020 GTC”会议上展示了一个通过 CPO 将GPU 和交换机芯片互连的系统架构图,并与与台积电、Ayarlabs 等公司积极合作开发 CPO 技术;

TSMC 于 2017 年开始与 Luxtera 合作开发了一个 65nm 节点的 12 英寸硅光子工艺平台,随后引入先进封装,推出 COUPE1.0/2.0 平台,在公布的 CPO 发展路线计划 2025 年实现 6.4Tbps 光引擎。

Broadcom:TH5-Bailly— SiPh PIC + 7nm CMOS EIC + FOWLPBroadcom 积极推动 CPO 技术从交换机侧向服务器侧渗透。


2021 年 Broadcom推出了配备 CPO 光学器件的下一代交换芯片系列,第一款 25.6T Humboldt 计划于2022 年底上市,并计划于 2022 年推出 51.2T Bailly,并宣布了基于硅光子集成电路的 800G DR8 可插拔收发器,并与 DSP 共同封装,以及未来将光学器件与 CPU 和GPU 共封装的计划;

OFC 2022 展会上 Broadcom 展示了与 Tomahawk 4 交换芯片共封装的 800Gb/s
光引擎, OCP 2022 上展示了 CPO 进展,并宣布与腾讯和锐捷建立战路合作伙伴关系,在超大规模数据中心内部署世界上第一个基于 Tomahawk 4 的 25.6T Humboldt CPO 系统;OFC 2023 上进一步演示了基于 Tomahawk 4 的 25.6T Humboldt CPO 系统;

TH4-Huboldt:作为 Broadcom 第一代 CPO 系统,采用半 CPO、半电连接方式,交换芯片与两侧共 4 个 3.2T 光引擎(32×100Gbps DR)互联,光引擎由硅光 PIC 和SiGe EIC 构成,采用内置光源,整体封装上基于 TSV 工艺通过基板互连,系统光互连功耗低于每 800G 7W,比传统的可插拔模块提高了 50% 以上。



Broadcom 的 CPO 平台逐步完善。OFC 2023 上 Broadcom 展示了世界上第一个
基于 Tomahawk 5 的 51.2T Bailly CPO 原型系统;2024 年 3 月,Broadcom 宣布向其客户交付了业界第一台 51.2T 的 CPO 以太网交换机;OFC 2024 上进一步展出 Bailly 51.2T CPO 以太网交换机系统,以及集成了 HBM、Logic 和 PHY 在内的多芯片模块共封装 6.4T 光引擎;

TH5-Bailly:该产品将 Broadcom Tomahawk 5 交换芯片与 8 个 6.4T 硅光光引擎
(64x100Gbps FR4)连接,其中 PIC 上已集成光学 MUX/DEMUX,全 COMS EIC 包含低功耗 TIA 及 Driver,PIC 与 EIC 基于 FOWLP 工艺互连,并通过带有 Broadcom FAU 连接器的光纤组件与前面板连接,同时采用外置可插拔激光器(PLS),通过 PLS 盲插连接器(MPO)连接。


整体来看,与可插拔光模块解决方案相比,CPO 使光互连的功耗降低了 70%,硅面积效率提高了 8 倍,使整个交换机功耗降低了大约 30%。Broadcom 表示,一个 800G 模块将消耗 13-15W 的功率相比,使用 CPO 并消除 DSP 复杂性等因素,功耗能降至 4.8W 以下。

Broadcom 正在尝试将 CPO 技术从交换机进一步拓展到算力芯片,实现更大规模的扩展域。相比交换芯片的 CPO 封装,GPU 会更加复杂,涉及到更多的 HBM 和更多的计算块。当前,一套设备具备 64x100G ,两套设备可实现 12.8T,未来有望提升到 102.4T 的高带宽。


TSMC:积极布局硅光技术,推出 COUPE 平台TSMC 宣布推出 COUPE 平台。TSMC 在 2024 年北美技术研讨会上,披露了自身的 3D 光学引擎路线图,并计划为台积电制造的处理器提供高达 12.8 Tbps 的光连接。由于铜缆信号无法满足不断增长的带宽需求,硅光子学将成为未来数据中心的一项关键技术。

TSMC 的紧凑型通用光子引擎(COUPE)是硅光子学领域的重要成果之一。该技术采用 TSMC 的 SoIC-X 封装技术,将电子集成电路(EIC)堆叠在光子集成电路(PIC)上,形成 EIC-on-PIC 结构。这种结构可以在模对模接口处实现最低的阻抗,从而实现最高的能效。此外,COUPE 还具备紧凑的集成设计、广泛的波长兼容性、高效的光电转换以及可扩展性和灵活性等特点,使得它能够支持多种光互联应用,并满足不同应用的需求。


目前,台积电的 3D 光学引擎已经进入开发阶段,未来将逐步提升传输速度并将光学连接更靠近处理器本身。COUPE 发展计划有三个阶段,每个阶段都致力于提高传输速率和降低功耗:


(1)2025 年,TSMC 的第一代 3D 光学引擎将集成到运行速度为 1.6 Tbps 的OSFP 可插拔设备中,两倍于当前基于铜的以太网解决方案的最高速率。第一代COUPE 不仅有望实现高带宽,还有望提高电源效率,而这两个问题是现代数据中心中亟待解决的关键问题。

(2)2026 年,TSMC 的第二代硅光产品计划将 COUPE 集成到 CoWoS 封装中,实现交换芯片及光学器件的共封装,这将实现速度高达 6.4 Tbps 的主板级光学互连,第二代功耗预计为第一代的 50%以下,延迟预计为第一代的 10%以下。

(3)第三代产品旨在集成到处理器封装中,COUPE 运行在 CoWoS Interposer 上,目标传输速率达 12.8 Tbps,同时使光学连接更接近处理器本身。此阶段迭代仍处于探索阶段,没有明确的发布时间,TSMC 表示正在考虑进一步降低功耗和延迟。


TSMC 作为全球知名的晶圆厂供应商,其封装技术的主要特点之一,是能够在基础芯片上堆叠异构芯片,从而实现更好的集成度和性能水平。通过利用混合键合技术,最大限度地提高了堆叠芯片的 I/O 功能,进一步增强了连接性和数据吞吐量。

目前,台积电正与 Ansys、Synopsys 和 Cadence 合作,开发其硅光子集成系统能力,TSMC 在 OIP 2024 生态系统论坛上进一步展示了其供应商目前拥有的支持COUPE 设计流程的工具。


其中以看出,Synopsys 和 Ansys 工具之间存在协同效应。此外,台积电计划与 Broadcom、Nvidia 等客户共同开发硅光子技术、CPO 等新产品,这一合作的制程技术从 45nm 延伸到 7nm,为相关工艺提供更加先进的支持。

总的来看,TSMC通过部署3D光学引擎,不仅进入了关键的数据中心连接领域,而且还计划大幅降低硅光子技术的功耗,通过解决互连性、电源和可扩展性方面的关键挑战,TSMC 的创新方法有望进一步助力现代计算架构的发展,同时与 Broadcom、Nvidia 等大客户共同开发硅光芯片技术,有望集合各方的技术优势和资源,推动硅光芯片的规模量产,并对硅光电子市场的竞争格局产生深远影响。

Nvidia:GPU 龙头企业,积极布局 CPO DWDM 方案

Nvidia 积极开发硅光子 CPO 技术。Nvidia 作为全球 GPU 龙头企业,其首席科学家 Bill Dally 在 GTC 2020 上介绍了其在硅光及共封装方面研究。在 HOTI 2023上的“Accelerator Clusters: the New Supercomputer”演讲,进一步展示了有关基于CPO 技术的互联系统的讨论。不同的设备连接具有不同的带宽和功耗,挑战在于如何将它们有机地组合在一起,需要同时考虑功率、成本、密度和连接距离等因素,通过这些尺寸测量,CPODWDM 成为一个可行的选择。

GPU 或交换机、它们所连接的 PCB 以及它们汇集的机柜之间存在带宽和功率限制,这为硅光互连奠定了基础,链路越短,带宽越高,偏移所消耗的能量就越低, CPO DWDM 方案的目标是具有比电缆更低的功耗但成本相似,具有与有源电缆相当的覆盖范围,并提供与 PCB 相当的信号密度。


其光互连系统中,交换机卡和 GPU 卡中采用 CPO 器件。交换芯片周边布置 6 个光引擎,光信号从尾纤导出,并通过带状光纤连接至前面板的 MTP 光纤连接器。


GPU 卡中可能包含多个 GPU,采用 CPO 器件,通过 NVlink 连接至面板。交换机卡、GPU 卡分别进一步整合,分别构成交换机机架和 GPU 机架。


光源方面,Nvidia 希望最终量子点光源能够使用,但目前仍以 DFB 激光器为主,通过光纤将光源导入发射端。发射端采用微环阵列调制器,调制范围在 25G/s-200G/s,调制后的信号导入接收端芯片,接收端包含光电二极管及跨阻放大器,将光信号转为电信号。


同时,在能耗上,早期原型机的功率预算大约是 3.5 pJ/b,其中大部分是激光器。


器件结构上,光引擎通过硅基 Interposer 与交换机芯片互联,其中 PIC 集成了微
环调制器、波导、耦合器,EIC 放置于 PIC 之上,和交换芯片连接距离非常短,包含发射端的微环调制器的驱动器、序列化器等,以及接收端的跨阻放大器、解序列器等。GPU 侧结构和交换机侧结构类似。


速率上,Nvidia 的一个原型机做到每根光纤带宽 400Gbps,其中每个偏振包含 8 个通道,每个通道带宽为 200Gbps。未来希扩展到每根光纤 800Gbps 和 1.6Tbps。

前 Nvidia 已制造了许多测试芯片,比如 RPC 19 被动微环调制器 DOE 已于 2019 年完成。


Nvidia 与 AyarLabs 积极合作开发 CPO。Ayar Labs 2022 年宣布与 NVIDIA 合作加速人工智能/机器学习架构中光互连的开发和应用,此次合作将侧重于集成 AyarLabs 的技术,为未来的 NVIDIA 产品开发由高带宽、低延迟和超低功耗基于光学的互连实现的横向扩展架构。

两家公司计划共同加速光学 I/O 技术的开发和采用,以支持 AI 和机器学习 (ML) 应用程序和数据量的快速增长。


Ayar Labs 是片间互联的领军企业,公司结合了硅光子技术和 Chiplet 来设计新一代片间互联产品,其产品主要包括 TeraPHY(光信号互联芯片)和 SuperNova(独立激光器),两者经常配合使用。


其中 TeraPHY 硅光芯片采用体积小、功耗低的微环调制器,利用多个波长携带信号来提高带宽密度,当前产品通过 8 个光端口实现了4096 Gbps 的双向吞吐量,每个链路支持每个光口 256Gbps,每个光口有 8 个波长,每个波长 32Gbps。



变化 3:AI 时代高速交换机需求增长,CPO 方案优势不断凸显CPO 交换机 AI 时代迎来产业机遇期。

在光互连不断穿透机架和计算系统的背景下,交换机作为光通信网络系统中核心网络设备,随着全球 AI 的高速发展,AI集群规模持续增长,AI 集群网络对组网架构、网络带宽、网络时延、功耗等方面提出更高要求,带动交换机朝着高速率、多端口、低功耗等方向迭代升级,AI 时代 CPO方案交换机有望迎来产业机遇期。



AI 加速交换机带宽发展,端口互联速度快速迭代。自 2019 年后全球数据中心产业开始步入算力中心阶段,根据 Cisco 数据,2010-2022 年全球数据中心网络交换带宽提升了 80 倍,特别是近期 AIGC 的快速发展带来网络架构的升级和 GPU 的加速迭代,进一步带动设备间更高的带宽需求。


2023 年作为 AI 元年,AI 在一半的时间内将互联速度提升一倍,数据中心交换芯片的演化角度来看,目前进入每两年翻一番的快速增长阶段,预计 2025 年有望实现 102.4T 的容量,对应 1.6T 光口。


在数据中心里,包括前端网络和后端网络,以及内部计算网络。

  • 计算网络:在一个服务器内连接多个 XPU,通常使用短距铜缆连接,使用协议包括 NVLink、Infinity Fabric、PCIe;

  • 后端网络:用于一个集群类多个服务器连接,通过 XPU 的 NIC/DPU 的端口进行光缆连接,使用协议包括 Infiniband、Ethernet;

  • 前端网络:将服务器连接至数据中心,通过 CPU 的 NIC/DPU 的端口进行光缆连接,使用协议为 Ethernet。


AI 训练集群带来 GPU 互联需求,新增后端网络组网需求。传统数据中心架构下,传统服务器与交换机之间通过网卡互相通信,网卡可直连 CPU 进行数据交换;AI 服务器比传统服务器新增 GPU 模组,服务器内部 GPU 之间通过 PCIe Switch 芯片或 NVSwtich 芯片实现内部互联,GPU 模组通过对应的网卡与其他服务器的网卡互联,实现各节点之间的通信。

因此相比传统网络架构,AI 服务器组网增加后端网络组网(Back End),增加了每台服务器的网络端口数量,拉动对高速交换机、网卡、光模块、光纤光缆等组件的需求。


AI/ML 后端网络市场规模快速增长,进一步拉动交换机需求。后端网络可采用运用 RDMA 技术的 RoCE 以太网和 IB 网络组网。

据 650group 数据,2021 年之前,RDMA 的市场规模每年在 4 亿至 7 亿美元之间,主要受 HPC 应用的驱动。2023 年,由于 AI/ML 部署的增长,市场对 RDMA 的需求提升至 60 亿美元以上,预计到 2028 年将突破 220 亿美元,其中主要以交换机设备需求为主。


AI 集群加速 Scale out,大集群组网带来大量高速交换机需求。随着 AI 模型参数持续增长,带动集群规模从百卡、千卡拓展至万卡、十万卡,对于超节点及超大规模组网架构,未来有望从 Scale up 和 Scale out 两个维度来实现总算力规模的提升,Scale out 推动组网架构从 2 层向 3 层、4 层架构拓展,带来大量高速交换机需求。


Scale up:主要通过提高单个节点内的算力规模,进而提升集群的算力规模。在服务器层面增加算力芯片总数,以 A100、H100、B200 DGX 系列为例的单个 AI 服务器内部算力模组主要由 8 张算力卡内部通过 NVSwitch 芯片互联组成,未来有望通过引入支持更多算力芯片互联比如 16 卡、32 卡互联的 Swtich 芯片,以优化 GPU 南北向的互联效率和规模,增强张量并行或 MoE 并行的数据传输能力,同时提升 GPU卡间互联带宽,通过高速互联总线将更多算力芯片互联,提升单服务器算力性能;

在机柜层面增加服务器总数,以 GH200 NVL32、GB200 NVL72 为例,单机柜内部通过引入更多服务器再搭配高速交换机实现互联,提升单机柜算力性能,再通过机间互联扩展至 NVL576,提升单个节点的算力性能。


Scale out:主要通过高速互联容纳更多节点,进而提升集群整体算力规模。当前机间通信主要以 400G/800G 为主,未来有望通过更高速率如 1.6T 组网互联,以提高互联带宽,支持更多节点高速互联;采用 CPO (Co-Packaged Optics) /NPO (Near Packaged Optics)、多异构芯片 C2C (Chip-to-Chip)封装等方式降低延时,进而提升数据传输效率;通过增加交换机端口数量提升相同架构下的 GPU 节点数量上限,或通过增加集群组网规模以实现更多节点间互联,如从 2 层胖树组网增加至 3、4 层组网架构,或改由 Torus、Dragonfly 等方式组网,实现从千卡向万卡、十万卡集群拓展。

AI 集群功耗成关键挑战,CPO 方案优势凸显CPO 是在成本、功耗、集成度各个维度上优化数据中心的光电封装方案。传统光电互连采用的板边光模块,走线较长,寄生效应明显,存在信号完整性问题,且模块的体积较大、互连密度低、多通道功耗较大。共封装技术通过将光收发单元与 ASIC 芯片封装在一个封装体内,进一步缩短了光信号输入和运算单元之间的电学互连长度,在提高光模块和 ASIC 芯片之间的互连密度的同时实现了更低的功耗。

CPO相较于可插拔光模块,带宽密度提升一个数量级,能量效率优化 40%以上。


随着AI集群的快速扩张,系统功耗迅速提升。以采用液冷系统的NVL576为例,根据 Broadcom 的估算,NVL576 包含 8 个 GB200 机架,4 组 L2 交换机机架,其中包含 144 TRAYS×4 GPU/TRAY=576 个 GPU,8×L1 交换机层×18 交换机/层+4×L2 机架×8×L2 交换机/机架=216 台交换机,648 个 1.6T OSFP 接口(用于 L1 至 L2 间的光模块),200G/通道的铜互连。其用于576个GPU计算的光互连功率约为16.2kW,若采用 CPO 方案,有望降低到 7.1kW,节约 9.1kW。


进一步,随着 NVL576 进一步向着万卡集群组网,以 30528 GPU 集群为例,根据 Broadcom 的估算,基于 DSP 可插拔方案,其互连功耗将达到 832kW,采用 CPO 方案有望降低到 366kW。

总体来看, CPO 是实现高集成度、低功耗、低成本、小体积的最优封装方案之一。虽然 CPO 具有显著的潜在优势,但 CPO 目前处于产业化初期,除了技术上的挑战外,更受集成光学器件的市场接受度、标准和制造能力的限制。作为光通信解决方案的一环,其发展仍需整体产业链的协同推进


来源:Optical Fiber Communication


申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


 

----与智者为伍 为创新赋能----


【说明】欢迎企业和个人洽谈合作,投稿发文。欢迎联系我们
诚招运营合伙人 ,对新媒体感兴趣,对光电产业和行业感兴趣。非常有意者通过以下方式联我们!条件待遇面谈
投稿丨合作丨咨询

联系邮箱:uestcwxd@126.com

QQ:493826566




评论 (0)
  • 在汽车行业的变革浪潮中,智界汽车的诞生备受瞩目。作为华为与奇瑞两大巨头携手合作的结晶,智界汽车自孕育之初便承载着众人的期待,被视为融合前沿科技与卓越制造的典范,有望在竞争激烈的新能源汽车市场中开辟出一片新天地。2024年,智界品牌首款车型智界S7正式上市,凭借华为的技术赋能,如先进的鸿蒙智能座舱、强大的HUAWEI ADS高阶智能驾驶辅助系统,以及奇瑞多年积累的深厚造车底蕴,在上市前赚足了眼球。智界S7的亮相,犹如一颗投入平静湖面的石子,激起了层层涟漪,消费者对其充满了好奇与期待,行业内也纷纷将
    用户1742991715177 2025-04-21 20:28 67浏览
  • 引言:工业安全与智能化需求的双重驱动在工业安全、环境保护及家庭安防领域,气体泄漏引发的安全事故始终是重大隐患。随着传感器技术、物联网及语音交互的快速发展,气体检测报警器正朝着智能化、低成本、高可靠的方向演进。WT588F02B-8S语音芯片,以“离在线语音更换+多协议通信”为核心优势,为气体检测报警器提供了一套高效、灵活的低成本语音解决方案,助力开发者快速响应市场需求。产品功能与市场需求1. 核心功能:从监测到预警的全流程覆盖实时气体监测:支持一氧化碳、臭氧、硫化氢等多种气体浓度检测,精度可达p
    广州唯创电子 2025-04-22 09:14 56浏览
  • 职场烂摊子,每个人都难免遇上如果你在职场待久了,总会碰到一些让人无奈的情况:比如刚接手的项目混乱不堪、前任同事留下的任务一团乱麻,甚至有时因为自己的疏忽造成麻烦。面对这种烂摊子,烦躁、焦虑、甚至怀疑人生的情绪都会扑面而来。但如果你冷静想想,会发现真正消耗你的,往往不是工作本身,而是持续不断的心理内耗。那么问题来了,如何摆脱内耗,快速有效地“自救”?摆脱内耗,从情绪中抽离我曾经历过一个典型的职场烂摊子:前任项目负责人突然辞职,项目资料缺失严重,进度远远落后,客户抱怨不断。当时接手后的第一反应就是慌
    优思学院 2025-04-21 18:21 40浏览
  • 在消费金融的赛道上,马上消费曾是备受瞩目的明星企业。自2015年成立以来,它以年均 30% 的净利润增速一路狂奔,成为持牌消费金融公司的标杆,2023年更是斩获19.82亿元净利润,风光无限。然而,2024年却成了马上消费的一道分水岭。2024年上半年,其营收为77.38亿元,同比下降2.11%;净利润更是同比骤降20.66%,仅为10.68亿元,创下历史最大跌幅 。与此同时,不良贷款率攀升至2.5%,不良余额高达16.54亿元,核心资本充足率降至12.72%,融资
    用户1742991715177 2025-04-21 21:29 85浏览
  • 据国际精益六西格玛研究所(ILSSI)成员大卫·哈钦斯(David Hutchins)的回忆,在“六西格玛”名称出现前,摩托罗拉组建了约100个质量改进团队,接受朱兰博士制作的16盘录像带培训,名为《朱兰论质量改进》(Juran on Quality Improvement),为了推广这种严谨的分析方法(朱兰博士视频中的核心内容),摩托罗拉前首席执行官鲍勃·加尔文创造了“六西格玛”这一标签,用以表彰这种“最顶尖"的方法。大卫·哈钦斯(David Hutchins)是朱兰博士的好友,也为他的工作做
    优思学院 2025-04-22 12:03 41浏览
  • 引言:老龄化社会的健康守护需求随着全球老龄化进程加速,老年人的健康管理与生活质量成为社会焦点。记忆衰退、用药混乱、日程遗漏等问题频发,催生了智能健康设备的市场需求。WTR096录音语音芯片,凭借其高度集成的录放音、计时时钟与计划管理功能,为老年人量身打造了一站式健康管理方案,重新定义智能语音时钟的价值。功能亮点:1. 用药安全守护:多维度提醒,拒绝遗忘多时段精准提醒:支持一天内设置多个用药时间(如早、中、晚),适配复杂用药需求。个性化语音定制:家属可录制专属提醒语音(如“上午9点,请服用降压药”
    广州唯创电子 2025-04-22 08:41 80浏览
  •   北京华盛恒辉基于GIS的电磁态势可视化系统软件是将地理空间信息与电磁态势数据相结合,通过图形化手段直观展示电磁环境态势的系统。这类软件在军事、通信、无线电管理等领域具有广泛应用,能够辅助用户进行电磁频谱分析、干扰监测、态势研判和决策支持。以下是关于此类系统的详细介绍:   应用案例   目前,已有多个电磁态势可视化系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁态势可视化系统。这些成功案例为电磁态势可视化系统的推广和应用提供了有力支持。   一、系统功能   电磁
    华盛恒辉l58ll334744 2025-04-22 11:44 57浏览
  • 4 月 19 日,“增长无界・智领未来” 第十六届牛商大会暨电子商务十大牛商成果报告会在深圳凤凰大厦盛大举行。河南业之峰科技股份有限公司总经理段利强——誉峰变频器强哥凭借在变频器领域的卓越成就,荣膺第十六届电子商务十大牛商,携誉峰变频器品牌惊艳亮相,以十几年如一日的深耕与创新,书写着行业传奇。图 1:誉峰变频器强哥在牛商大会领奖现场,荣耀时刻定格牛商大会现场,誉峰变频器强哥接受了多家媒体的专访。面对镜头,他从容分享了自己在变频器行业二十年的奋斗历程与心路感悟。谈及全域营销战略的成功,誉峰变频器强
    电子与消费 2025-04-22 13:22 44浏览
  • 近期,金融界消息称,江西万年芯微电子有限公司申请一项名为“基于预真空腔体注塑的芯片塑封方法及芯片”的专利。此项创新工艺的申请,标志着万年芯在高端芯片封装领域取得重要突破,为半导体产业链提升注入了新动能。专利摘要显示,本发明公开了一种基于预真空腔体注塑的芯片塑封方法,方法包括将待塑封的大尺寸芯片平铺于下模盒腔体内的基板并将大尺寸芯片的背向表面直接放置于基板上以进行基板吸附;将上模盒盖合于下模盒形成塑封腔,根据基板将塑封腔分为上型腔以及下型腔;将下型腔内壁与大尺寸芯片间的空隙进行树脂填充;通过设置于
    万年芯 2025-04-22 13:28 37浏览
  •   北京华盛恒辉机场保障能力评估系统软件深度解析   在航空运输业快速发展的背景下,机场保障任务愈发复杂,传统人工评估方式已无法满足高效精准的管理需求。机场保障能力评估系统软件作为提升机场运行效率、保障飞行安全的关键工具,其重要性日益凸显。   应用案例   目前,已有多个机场保障能力评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润机场保障能力评估系统。这些成功案例为机场保障能力评估系统的推广和应用提供了有力支持。   一、系统功能模块   数据采集与整合模块  
    华盛恒辉l58ll334744 2025-04-22 10:28 62浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦