PCIe7.0如何应对AI的带宽需求

FPGA开发圈 2024-10-29 12:02

AI模型的复杂度每4到6个月就会翻一番,比摩尔定律还快四倍。受此推动,数据中心基础设施也在快速发展。处理和存储万亿参数模型需要超高速度和低延迟,而当前的超大规模数据中心基础设施则显得力不能及。新的基础设施需要更大的存储容量、增强的计算资源和更快的互连。PCIe 7.0应运而生,它是PCI Express标准的最新版本(规范的0.5版)。PCIe 7.0可提供最高达512 GB/s的带宽和超低延迟,让互连能够满足AI工作负载的海量并行计算需求,帮助缓解数据瓶颈。

图 1: 多年来,AI集群不断扩展以增强C2C连接能力,从而提供处理数万亿LLM参数所需的计算能力、存储空间和网络带宽。摘自:科学探索的万亿参数人工智能服务基础结构:调查与展望(arxiv.org)

为什么PCIe 7.0适用于现代AI数据中心基础设施


当今的AI工作负载需要专门的架构,其中集成多个加速器,它们与中央处理器协同工作。一些先进架构需要在单个计算单元中集成多达1024个加速器。因此,计算扩展结构需要尽可能快的互连来连接到成百上千具有高带宽I/O网络的加速器,从而高效训练AI模型。     

PCI-SIG于2022年宣布了PCIe 7.0技术,并计划于2025年发布完整规范(目前提供的是0.5版)。这项技术旨在满足数据密集型应用和市场的巨大带宽需求,包括AI/ML、1.6T/800G以太网网络、HPC和HPC数据中心中的量子计算。PCIe 7.0将在加速器、处理器、NIC和其他组件之间提供低延迟、低功耗、可靠的链路,确保在高性能计算环境中实现高效连接。

图2:PCIe 7.0将大幅提升AI/ML扩展结构中所有关键互连的带宽,并确保数据传输安全可靠,以满足AI需求

PCIe 7.0如何支持下一代AI和HPC SoC


PCIe 7.0是AI和HPC硬件基础设施领域的一项重大进步,它带来了多项关键优势,能够满足对持续创新和海量数据的需求:

  1. 更高带宽:PCIe 7.0的带宽相较于PCIe 6.0提高了一倍,双向速度高达512 GB/s,且支持16通道,数据速率达128 GT/s。增强的带宽对于快速高效地处理大量数据至关重要,这是AI和HPC应用的关键。

  2. 低延迟:PCIe 7.0通过提升信号传输速率降低了延迟。这对于AI算法的实时处理和快速响应,以及HPC的高速数据处理要求而言,有着至关重要的意义。

  3. 兼容性和可扩展性:PCIe 7.0向后兼容前几代PCIe,确保与现有硬件可互操作,同时可扩展以支持未来升级。这对于将新技术无缝集成到现有AI和HPC基础设施而言,具有重要意义。

  4. 能源效率:PCIe 7.0在提升性能的同时,还致力于保持甚至提高能源效率,这对于降低数据中心和大型计算设施的总体运营成本和环境影响至关重要。

  5. 高级特性:PCIe 7.0引入了新的特性和优化,进一步增强了其在要求苛刻的应用中的实用性,包括改进的信道裕度能力、增强的错误检测和报告机制,以及对CXL等新兴技术的支持。

  6. 信道覆盖范围和信号完整性考量:PCIe 7.0的目标信道覆盖范围与PCIe 6.0相同,在单连接拓扑中采用4"-14"系统布线和2"-4" AIC布线,焊盘到焊盘信道损耗最高为-36dB。为了尽量减少根联合体参考封装中的插入损耗和反射,它通过有效减少串扰来改善接口插入损耗、回波损耗、PCB损耗、通孔插入和回波损耗。

  • 参考发送器指定为4抽头Tx均衡方案,需要进一步研究链路裕度对抽头系数分辨率和Tx预设的敏感性。发送器和参考时钟抖动规格几乎是PCIe 6.0的一半,芯片级、电路板和封装协同设计需要更精确的迭代式方法。

  • 参考接收器由建议的参考CTLE和基于ADC的Rx架构组成。PAM-4 128Gbps压力眼图方法、抖动容差、校准信道和Rx校准眼图掩模的规格均有待定义。根联合体(RC)和端点(EP)的参考封装模型也有待定义。

PCIe 7.0接口的增强功能和向光学解决方案的过渡



PCI-SIG于2000年推出的卡式机电(CEM)连接器,是主板与附加卡(AICs)及转接卡连接的关键部件。这类连接器支持多种模块,包括存储用的SSDs、图形处理的GPU、网络连接的NICs,以及机器学习/深度学习或混合计算模块。针对PCIe 7.0 CEM连接器,其核心在于降低反射与串扰、确保线缆低损耗、实现优质的导体终端处理,以及减少偏斜和周期性共振现象。PCIe 7.0连接器和线缆对信号完整性有着严苛的要求,目前正在探讨诸如回波损耗偏差等新指标,旨在进一步提升高速传输下的信号质量和可靠性。


此外,PCI-SIG成立了PCIe光学工作组,这表明行业正在积极探索超越铜线传输的限制,尤其是CopprLink外部电缆的局限性,转而采用光学解决方案。光缆技术最近被引入到PCI-SIG,引发了业界对于扩展计算网络物理覆盖范围的热烈讨论。该技术具备多项优势,例如延迟更低、热管理能力更强等。


对光学PCIe链路的双重关注包括:在协议层调整逻辑通信方案,同时在物理层引入热管理更好、光学链路经优化的新外形。这些进展旨在满足高性能计算和网络对速度、可靠性和效率日益增长的需求。过渡到128Gbps PCIe标准标志着芯片设计的一次重大演进,这将带来更强大的功能和缓存一致性,同时也会提出新的设计挑战:

  1. 更强大的功能:光纤链路能够扩大覆盖范围并提高数据速率,突破铜线的约束。这有利于提升性能并降低功耗和延迟。

  2. 缓存一致性:128Gbps SerDes和控制器的CuLink与光学链路的集成支持缓存一致性。这使得处理器和加速器之间能够高效共享资源,从而优化整体系统性能。

  3. 行为型接收器模型:128 Gbps的Rx模型包含了高级特性,例如功能更强大的前馈均衡器(FFE)和更高抽头数的数字反馈均衡器。实际设计预计将超出最低要求,以在所有实际PVT(工艺、电压、温度)条件下实现目标误码率(BER)。

  4. 压力测试和验证:为了验证这些先进接收器,用于产生压力激励信号的技术必不可少。这包括在早期标准的基础上进行升级,以支持PAM4调制和新的信道与测试要求。

 

全球首个完整PCIe 7.0 IP解决方案



虽然标准仍在不断变化,但新思科技最近宣布了全球首个针对PCIe 7.0的完整IP解决方案,包括控制器、IDE安全模块、PHY和验证IP。该解决方案为生态系统连接实现闪电般的速度铺平了道路。


PCIe 7.0 IP TX/RX性能展示,表明其符合0.5版规范



在DesignCon 2024上,新思科技展示了具有出色RLM的全开128 Gbps TX PAM4眼图。TX到RX环回在长距离信道上以128 Gbps的速度运行,证明了该IP的鲁棒性,其FEC前BER比规范要求高出多个数量级。


为了进一步突出这项技术的先进性,我们还在PCISIG DevCon 2024上展示了PCIe 7.0,包括:环回配置中的TX和RX性能,业界首次PCIe 7.0与电缆信道(如DAC)、背板信道的互操作,以及直接驱动和均衡光学损耗。此外,我们还进行了世界首次PCIe 7.0控制器演示,成功实现了根联合体到端点的连接,展示了使用EQ旁路模式的FLIT传输。


结语



PCIe 7.0提供更高的带宽、更低的延迟、更高的能源效率以及与现有基础设施的兼容性,让开发者能够应对AI和HPC环境不断提升的需求。系统开发者迫切需要提高数据吞吐量,以帮助推进在数据中心部署人工智能推理引擎和协处理器拓扑。这需要新的仿真技术和流片后验证技术。PAM-4拐点需要创新的仿真、设计、测试和测量方法来应对。仿真和验证之间的相关性,PCIe光缆传输和电缆传输的设计实践,信号完整性问题导致需要降噪,保持信号完整性和尽可能减少反射与串扰等问题的技术。

向128Gbps PCIe转变代表了高速互连技术的范式变革。对于旨在提高现代计算和网络环境的性能、效率和可靠性的IP设计,它带来了新的挑战和机遇。新思科技凭借业界首个完整的预验证PCIe 7.0 IP解决方案,走在了这场技术革命的前沿。该解决方案基于标准构建,由PHY、控制器、IDE安全模块和验证IP组成,x16配置支持高达512 GB/s的双向安全数据传输以缓解数据瓶颈。新思科技在PCI Express领域深耕二十余年,能够为设计下一代HPC和AI SoC的开发者提供先发优势,帮助他们更快速地将设计投入生产。


文章来源:Synopsys


【预约直播】


FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 133浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 329浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 594浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 204浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 130浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 259浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 230浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 137浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 101浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 666浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 178浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 270浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 180浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 106浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦