AI模型的复杂度每4到6个月就会翻一番,比摩尔定律还快四倍。受此推动,数据中心基础设施也在快速发展。处理和存储万亿参数模型需要超高速度和低延迟,而当前的超大规模数据中心基础设施则显得力不能及。新的基础设施需要更大的存储容量、增强的计算资源和更快的互连。PCIe 7.0应运而生,它是PCI Express标准的最新版本(规范的0.5版)。PCIe 7.0可提供最高达512 GB/s的带宽和超低延迟,让互连能够满足AI工作负载的海量并行计算需求,帮助缓解数据瓶颈。
图 1: 多年来,AI集群不断扩展以增强C2C连接能力,从而提供处理数万亿LLM参数所需的计算能力、存储空间和网络带宽。摘自:科学探索的万亿参数人工智能服务基础结构:调查与展望(arxiv.org)
当今的AI工作负载需要专门的架构,其中集成多个加速器,它们与中央处理器协同工作。一些先进架构需要在单个计算单元中集成多达1024个加速器。因此,计算扩展结构需要尽可能快的互连来连接到成百上千具有高带宽I/O网络的加速器,从而高效训练AI模型。
PCI-SIG于2022年宣布了PCIe 7.0技术,并计划于2025年发布完整规范(目前提供的是0.5版)。这项技术旨在满足数据密集型应用和市场的巨大带宽需求,包括AI/ML、1.6T/800G以太网网络、HPC和HPC数据中心中的量子计算。PCIe 7.0将在加速器、处理器、NIC和其他组件之间提供低延迟、低功耗、可靠的链路,确保在高性能计算环境中实现高效连接。
图2:PCIe 7.0将大幅提升AI/ML扩展结构中所有关键互连的带宽,并确保数据传输安全可靠,以满足AI需求
PCIe 7.0是AI和HPC硬件基础设施领域的一项重大进步,它带来了多项关键优势,能够满足对持续创新和海量数据的需求:
更高带宽:PCIe 7.0的带宽相较于PCIe 6.0提高了一倍,双向速度高达512 GB/s,且支持16通道,数据速率达128 GT/s。增强的带宽对于快速高效地处理大量数据至关重要,这是AI和HPC应用的关键。
低延迟:PCIe 7.0通过提升信号传输速率降低了延迟。这对于AI算法的实时处理和快速响应,以及HPC的高速数据处理要求而言,有着至关重要的意义。
兼容性和可扩展性:PCIe 7.0向后兼容前几代PCIe,确保与现有硬件可互操作,同时可扩展以支持未来升级。这对于将新技术无缝集成到现有AI和HPC基础设施而言,具有重要意义。
能源效率:PCIe 7.0在提升性能的同时,还致力于保持甚至提高能源效率,这对于降低数据中心和大型计算设施的总体运营成本和环境影响至关重要。
高级特性:PCIe 7.0引入了新的特性和优化,进一步增强了其在要求苛刻的应用中的实用性,包括改进的信道裕度能力、增强的错误检测和报告机制,以及对CXL等新兴技术的支持。
信道覆盖范围和信号完整性考量:PCIe 7.0的目标信道覆盖范围与PCIe 6.0相同,在单连接拓扑中采用4"-14"系统布线和2"-4" AIC布线,焊盘到焊盘信道损耗最高为-36dB。为了尽量减少根联合体参考封装中的插入损耗和反射,它通过有效减少串扰来改善接口插入损耗、回波损耗、PCB损耗、通孔插入和回波损耗。
参考发送器指定为4抽头Tx均衡方案,需要进一步研究链路裕度对抽头系数分辨率和Tx预设的敏感性。发送器和参考时钟抖动规格几乎是PCIe 6.0的一半,芯片级、电路板和封装协同设计需要更精确的迭代式方法。
参考接收器由建议的参考CTLE和基于ADC的Rx架构组成。PAM-4 128Gbps压力眼图方法、抖动容差、校准信道和Rx校准眼图掩模的规格均有待定义。根联合体(RC)和端点(EP)的参考封装模型也有待定义。
PCI-SIG于2000年推出的卡式机电(CEM)连接器,是主板与附加卡(AICs)及转接卡连接的关键部件。这类连接器支持多种模块,包括存储用的SSDs、图形处理的GPU、网络连接的NICs,以及机器学习/深度学习或混合计算模块。针对PCIe 7.0 CEM连接器,其核心在于降低反射与串扰、确保线缆低损耗、实现优质的导体终端处理,以及减少偏斜和周期性共振现象。PCIe 7.0连接器和线缆对信号完整性有着严苛的要求,目前正在探讨诸如回波损耗偏差等新指标,旨在进一步提升高速传输下的信号质量和可靠性。
此外,PCI-SIG成立了PCIe光学工作组,这表明行业正在积极探索超越铜线传输的限制,尤其是CopprLink外部电缆的局限性,转而采用光学解决方案。光缆技术最近被引入到PCI-SIG,引发了业界对于扩展计算网络物理覆盖范围的热烈讨论。该技术具备多项优势,例如延迟更低、热管理能力更强等。
对光学PCIe链路的双重关注包括:在协议层调整逻辑通信方案,同时在物理层引入热管理更好、光学链路经优化的新外形。这些进展旨在满足高性能计算和网络对速度、可靠性和效率日益增长的需求。过渡到128Gbps PCIe标准标志着芯片设计的一次重大演进,这将带来更强大的功能和缓存一致性,同时也会提出新的设计挑战:
更强大的功能:光纤链路能够扩大覆盖范围并提高数据速率,突破铜线的约束。这有利于提升性能并降低功耗和延迟。
缓存一致性:128Gbps SerDes和控制器的CuLink与光学链路的集成支持缓存一致性。这使得处理器和加速器之间能够高效共享资源,从而优化整体系统性能。
行为型接收器模型:128 Gbps的Rx模型包含了高级特性,例如功能更强大的前馈均衡器(FFE)和更高抽头数的数字反馈均衡器。实际设计预计将超出最低要求,以在所有实际PVT(工艺、电压、温度)条件下实现目标误码率(BER)。
压力测试和验证:为了验证这些先进接收器,用于产生压力激励信号的技术必不可少。这包括在早期标准的基础上进行升级,以支持PAM4调制和新的信道与测试要求。
虽然标准仍在不断变化,但新思科技最近宣布了全球首个针对PCIe 7.0的完整IP解决方案,包括控制器、IDE安全模块、PHY和验证IP。该解决方案为生态系统连接实现闪电般的速度铺平了道路。
在DesignCon 2024上,新思科技展示了具有出色RLM的全开128 Gbps TX PAM4眼图。TX到RX环回在长距离信道上以128 Gbps的速度运行,证明了该IP的鲁棒性,其FEC前BER比规范要求高出多个数量级。
为了进一步突出这项技术的先进性,我们还在PCISIG DevCon 2024上展示了PCIe 7.0,包括:环回配置中的TX和RX性能,业界首次PCIe 7.0与电缆信道(如DAC)、背板信道的互操作,以及直接驱动和均衡光学损耗。此外,我们还进行了世界首次PCIe 7.0控制器演示,成功实现了根联合体到端点的连接,展示了使用EQ旁路模式的FLIT传输。
PCIe 7.0提供更高的带宽、更低的延迟、更高的能源效率以及与现有基础设施的兼容性,让开发者能够应对AI和HPC环境不断提升的需求。系统开发者迫切需要提高数据吞吐量,以帮助推进在数据中心部署人工智能推理引擎和协处理器拓扑。这需要新的仿真技术和流片后验证技术。PAM-4拐点需要创新的仿真、设计、测试和测量方法来应对。仿真和验证之间的相关性,PCIe光缆传输和电缆传输的设计实践,信号完整性问题导致需要降噪,保持信号完整性和尽可能减少反射与串扰等问题的技术。
向128Gbps PCIe转变代表了高速互连技术的范式变革。对于旨在提高现代计算和网络环境的性能、效率和可靠性的IP设计,它带来了新的挑战和机遇。新思科技凭借业界首个完整的预验证PCIe 7.0 IP解决方案,走在了这场技术革命的前沿。该解决方案基于标准构建,由PHY、控制器、IDE安全模块和验证IP组成,x16配置支持高达512 GB/s的双向安全数据传输以缓解数据瓶颈。新思科技在PCI Express领域深耕二十余年,能够为设计下一代HPC和AI SoC的开发者提供先发优势,帮助他们更快速地将设计投入生产。
文章来源:Synopsys
【预约直播】