当普通消费者畅游在智能世界,享受数字世界带来的巨大红利时,大概不会考虑其背后与之相关的数据量、复杂性以及超大规模数据中心内部涉及的所有的搜索、采集、传输、处理与分析过程。但对于相关行业的从业人员来说,如何在日益超连接、数据密集、人工智能驱动的世界中,找到高带宽和低延迟的通信基础设施解决方案,无时不刻不在困扰着他们。
带宽也“内卷”
近年来,云计算和边缘计算已经变得越来越普遍,人工智能(AI)迅速成为带宽增长的最大驱动力。为了应对这些趋势,数据中心已经从处理可管理数据量的基本服务器,转变为处理比我们想象中多得多数据的复杂多机架系统。根据IDC的预测,到2025年,全球将拥有多达175泽字节的数据,分布在云和数据中心之间。
这大大加速了相关行业升级提速的日程表。以数据传输为例,光通信行业市场调研机构Lightcounting曾在2021年时预测,800G光模块将从2025年底开始主导市场。但就目前的情况来看,这一节奏明显提前。从2023年下半年开始,不少云服务厂商就已经开始集中测试和采购800G光模块。
在交换机芯片和交换机整机方面,产业也是快速跟进。2022年8月,博通正式发布自己的Tomahawk 51.2 Tbps交换机芯片;在2022年OCP全球峰会上,思科发布了两款新的800G交换机系列——Nexus 9232E和8111交换机,以及带有100G和400G接口的800G光模块。这意味着,过去12年里,交换机的交换能力已经从640G发展到102.4T。
理论上来说,800G带宽已经不算低了。但人们对带宽的追求是无止境的,尤其是2023年ChatGPT的爆发,更是在很大程度上加剧了人们对带宽现状的“焦虑”,处理大型语言模型(LLM)上的非结构化工作负载成为了当务之急。众所周知,LLM随着ChatGPT等语言模型的出现而爆发,这些模型通常拥有数万亿个参数,并且参数量每隔几个月就会增加一倍。而大部分数据都保存在内存中,必须一起处理,因此系统需要许多处理器通过低延迟网络连接在一起。
相关资料显示,对头部企业来说,从GPT-1到GPT-3,模型的参数量从1.1亿个增长到了1750亿个,GPT4更是达到了万亿的参数规模。如果以英伟达A100显卡的处理能力计算,早期的大模型大概需要1万块英伟达GPU来处理训练数据,GPT-3.5大模型就需要2万块甚至更多GPU才能完成。
于是,为了处理这样的工作负载,整个集群将作为一个单一的计算以太网为这些庞大的系统提供一种理想的连接协议。
数据中心的演变
以太网协议五十多年来一直是互联网的数据连接骨干,是“箱体”间(box-to-box)连接的主要接口类型,具有速率协商和支持不同类型介质(如光纤、铜缆和PCB背板)等优点,这对数据中心SoC开发者而言颇具吸引力。随着标准的演变,网络提速的下一个前沿趋势将是前文提及的1.6T以太网,毕竟在人工智能、自动驾驶、高性能计算(HPC)和云计算等快速增长的应用中,网速必须足够快,才能确保数据在计算、网络和存储组件之间快速传输。
目前超大规模数据中心企业拥有管理ZB级(甚至更多)信息的能力,但我们所面临的现实是,随着摩尔定律的放缓和半导体逐渐趋近物理极限,算力与I/O带宽之间的差距不断拉开。简单而言,就是尽管I/O速度不断提高,但仍然无法跟上算力增长的步伐。开发者可以想出很多办法增加算力资源,包括添加更多晶体管、CPU并行化和多线程技术等等,但在同步提高I/O性能方面,办法似乎并不是太多,导致面对当今数据的体量和复杂程度时,I/O逐渐成为发展瓶颈。
未来,数据中心会朝着分布式架构发展,存储、计算和网络等同质资源会保留单独的“箱体”中,彼此间通过电/光互连实现连接。超大规模数据中心也会转向更快、更扁平、更具可扩展性的网络架构。更扁平的架构不仅降低了延迟,也推动了对更高带宽和更长距离高效连接的需求。以太网高速接口的出现正是为了满足连接方面的需求,也因此长期以来一直被视为互联网数据连接的支柱。
如何构建1.6T以太网的数据连接基础?
图1.完整的1.6T以太网子系统和延时路径
支持1.6T以太网的数据连接基础设施架构由控制器和物理层(PHY)两部分组成。其中,控制器在硅芯片中实现基本以太网协议功能,由介质访问控制层(Media Access Control , MAC)、物理编码子层(Physical Coding Sublayer, PCS)和物理介质连接层(Physical Medium Attachment, PMA)组成。一旦集成,这些要素必须提供最佳的性能和延迟;由PMA和物理媒体相关层(Physical Medium Dependent, PMD)组成的PHY负责传输和接收数据,高性能和低延迟也是其必要条件。
考虑到前向纠错(Forward Error Correction, FEC)是PCS的基本功能(旨在保护通过每条物理链路传输的高速信号产生降级),因此有一点是需要引起注意的:如果这些子层来自不同的供应商,那么彼此间的互操作性可能会面临挑战。
对以每秒1.6太比特的速度运行时的PHY和管理参数进行描述和定义,是IEEE 802.3dj工作组的职责。为此,该小组规定了MAC层的最大误码率(BER)为10-13,当被用于112G和224G SerDes的芯片到模块(C2M)和芯片到芯片(C2C)应用时,用户可选择16和8通道连接单元接口(AUI)。对于PHY来说,规范规定当通过八对铜线进行传输时,双芯同轴电缆每个方向的光缆长度至少为1米,超过8对光纤时可达500米,如果再超过8对光纤时长度可达2公里。
经过硅验证的以太网PHY和延迟优化的以太网控制器IP,是支持这些设计所需的传输速度和延迟数据,同时减轻互操作性问题的关键所在。尤其是224G SerDes技术的出现以及MAC和PCS IP的进步,为1.6T以太网的发展奠定了基础。
除数据井喷所引起的带宽需求外,服务器前面板密度的增加也推动了对224G连接的需求。在数据中心内,前面板可插拔模块的密度已接近极限,只剩下有限的空间供可插拔光学模块使用。所以,SerDes接口就需要不断提高运转速度来顺应其要求。
224G以太网还拥有其他诸多优势。它可以帮助高密度数据中心减少所需的线缆和交换机数量,达到更高的网络效率。此外,它还可向后兼容其他以太网标准,同时简化与现有网络的集成。
总体来说,随着行业标准的不断发展,1.6T以太网完整解决方案正日趋完善,生态系统互操作性也在多个渠道、配置和供应商层面得到妥善解决,这让设计人员对未来无缝生态系统的整合充满了信心。
来自新思的解决方案
新思科技为1.6T以太网应用提供了一套完整的解决方案,已经被多家客户采用,这其中有不少设计还是从零开始。事实证明,与现有方案相比,新思的方案能够将互连功耗降低多达50%。同时,凭借在优化子系统方面的专业知识,以及在400G和800G IP开发方面拥有的经验和行业领先地位,新思科技1.6T以太网完整解决方案还能使设计人员减少周转时间、功耗和延迟。
图2:过去两年中,新思科技224G以太网PHY IP已在六个开放平台和多个芯片中展示了出色的行业互操作性
具体而言,新思科技224G以太网PHY IP提供了出色的信号完整性和抖动性能,具有零后FEC BER和额外的信道损耗裕度。它支持4级脉冲幅度调制(PAM-4)和非归零(NRZ)信令,可提供高达1.6T的以太网带宽。新的多速率以太网MAC和PCS控制器采用专利的Reed Solomon前向纠错(FEC)架构,与前几代相比,延迟减少了40%。由于可配置的以太网PHY和控制器IP经过测试且具备可互操作,工程师可以将时间更多集中在打造差异化设计上。
新思科技还同时提供业界首个1.6T以太网验证IP(VIP),可实现早期的RTL验证、SoC启动和系统级验证,为设计人员提供了设计验证的快速通道。利用自身积累的技术专长、积极参与标准委员会工作、以及与关键生态系统和芯片伙伴展开合作,新思科技将在汽车、AI, IoT and HPC以及所有支持1G到1.6T以太网的应用中提供所需的全套IP产品组合支持。
为了更好的帮助开发者在规划224G以太网设计时占得先机,从而更顺利地交付高性能数据中心应用。在DesignCon 2023大会上,新思科技演示了一种224G收发器PHY,具有完全开放的3nm 224G PAM-4-TX眼图;而在OFC 2023大会上,新思科技演示了其出色的环回性能,且BER小于7e-8。
结语
人工智能生成内容(AIGC)产业的爆发进一步带动了1.6T以太网的需求。通过引入全新的MAC和PCS控制器,1.6T以太网找到了当前最经济理想的实现方案。不过,在从方案到实际落地的过程中,设计人员依然面临着性能、功耗、面积和信号完整性等多方面的挑战,需要生态合作伙伴集思广益,携手共进。