2022年11月底,ChatGPT的横空出世,让生成式人工智能技术迅速席卷全球。目前,ChatGPT已经更新迭代至第四代,最新一代的ChatGPT在规模、知识广度、交互能力和自我修正能力等方面较之其发布之初有了很大提升。此外,由于ChatGPT的风靡,也让许多科技公司竞相推出相关竞品。
这些大语言模型都有一个共同点,那就是都需要庞大的数据进行训练和推理。据公开资料显示,2022年11月发布的ChatGPT是基于GPT 3.5架构进行训练的,而ChatGPT 3包含的参数就已经达1750亿个,最新一代的ChatGPT 4的参数更是已经增加至1.6万亿个,呈指数级增长趋势。
据相关数据显示,过去四年,大模型参数量以年均400%的复合增长率增长,AI算力需求的增长也超过15倍。如此庞大的数据量,以CPU为中心的传统计算基础设施已经无法满足需求,需要有新一代的人工智能基础设施来支撑这些大模型的训练和推理,以及生成式AI应用的规模化落地。
IDC研究副总裁Peter Rutten表示:“IDC的研究表明,专用基础设施的构建不足或缺乏,往往是AI项目失败的主要原因。”
人工智能支柱——数据中心需求激增
随着人工智能,尤其是生成式人工智能热潮的持续升温,带来了巨大的算力需求,而数据中心作为人工智能技术发展的主要基础设施之一,它可以为人工智能提供硬件基础和海量的数据资源,同时也为人工智能提供强大的计算能力。但以往的数据中心主要是为社会提供数字化转型所需的通用算力,这样的数据中心显然不能满足人工智能等技术带来的算力激增的需求,它们需要具有更高带宽、更低延时的数据中心,显然,我们需要建设更多、更先进的数据中心。
我国的新型数据中心发展三年行动计划(2021-2023年)明确到2023年底,全国数据中心机架规模年均增速保持在20%左右,平均利用率力争提升到60%以上,总算力超过200EFLOPS,高性能算力占比达到10%。
2023年1月,麦肯锡公司预测,到2030年,数据中心行业每年将增长10%,超大规模数据中心市场预计每年增长20%,全球新设施建设支出将达到490亿美元。
而另一分析机构Gartner则预测,2025年服务器、数据中心和存储的市场规模将达到1,120亿美元,2020至2025年期间的CAGR为8.0%。
目前全球领先科技巨头,包括谷歌、亚马逊、Meta以及微软等公司都纷纷投入数据中心的建设与升级竞赛中。据富国银行投资研究所数据显示,上述这些科技巨头在2023年用于数据中心新建和升级的总资本支出高达约1400亿美元。未来,数据中心的需求还将持续增长,它将不仅仅是存储和处理数据的场所,更将成为支撑人工智能创新的重要基石。
可靠连接是构建数据中心关键
数据中心的重要性已经不言而喻。如果将数据中心比喻为人的‘大脑’,而大脑的很多指令则需要通过大量的神经元之间的连接下达,而快速的‘连接’才能实现这些指令的快速甚至实时实施。因此,如果说数据中心是人工智能的发展基石,那连接则是数据中心的骨干。
五十多年来,以太网协议一直是互联网数据连接的骨干网络。目前,数据中心的网络连接多采用以太网连接,据IDC报告显示,当前主流数据中心网络连接采用以太网的占比超过95%。
AI场景下,海量的参数分布于各个服务器之间,尤其是那些大模型,如上所述,它们有数万亿个参数,它们的参数数量每隔几个月就会翻一番,大多数数据都保存在内存中,需要同时进行处理,因此系统需要通过低延迟网络连接许多处理器。为了处理这样的工作负载,整个集群将充当单个计算设备,多个集群一起处理数TB的数据。
这样的场景需要大量的算力和快速的连接来支撑,算力和网络连接能力之间是协同互动的,它们需要同步提升效率才能更好满足这些场景的需求。毫无疑问,以太网为这些大型系统提供了理想的连接协议,同时,这些大型系统的发展也催生了以太网传输速率的快速提升。
目前的以太网协议速度多为400G和800G为主。从下图中可以看出,2019年,400G以太网的部署刚刚起步,但普及率不是很快,后在2023年,由于ChatGPT等技术的涌现,立刻推动了400G甚至800G以太网的快速迭代和部署。据Dell’Oro的数据预测,2024年,400G和800G以太网的部署将提速,未来2-3年,800G以太网的占比将超一半。
而即使是将现有的数据中心连接迅速迭代至400G和800G,随着未来如生成式人工智能等数据密集型应用场景的不断增加,它们也将无法满足不断增长的带宽需求,需要迭代至具有更高速率的网络技术,1.6T以太网被认为将很快成为行业标准。
未来的连接标准——1.6T以太网
作为下一代以太网技术,1.6T以太网能够提供比当前以太网协议更高的数据传输速度。相较于800G以太网,1.6T以太网通过采用更高效的传输技术和更先进的数据处理算法,实现了2倍的太比特的传输速度。
在传输方面,1.6T以太网可能采用更高速的物理层传输技术,如PAM4(四相振幅调制),以提高每个时间周期内可传输的数据量。同时,它还可能采用更为先进的编码和解码算法,以确保数据在传输过程中的准确性和可靠性。
在数据处理方面,1.6T以太网可能采用高度并行化的处理架构,以处理大规模数据流,可以很好满足人工智能时代数据量暴增的需求。
虽然,负责以太网标准制定的IEEE预计将于2026年才完成1.6TbE标准的最新版本,但2024年,他们将通过802.3dj工作组完成一组基线功能。如上图Dell’Oro的预测,1.6T以太网的部署也将始于2024年。
业界首款完整1.6T以太网IP解决方案满足高带宽需求
近日,新思科技推出了业界首款完整1.6T以太网解决方案,它大幅提升了数据密集型AI工作负载的带宽和吞吐量。
新思科技的综合IP解决方案,包括新型1.6T MAC和PCS以太网控制器、224G以太网PHY IP和验证IP,可加快AI和HPC网络芯片的上市时间。与现有SoC方案相比,该款完整的1.6T以太网IP解决方案可将互连功耗降低多达50%,从而优化超大规模数据中心的能效。新的多通道、多速率新思科技1.6T以太网MAC和PCS控制器通过实施获得专利的Reed-Solomon前向纠错架构,将面积减少了50%,延迟减少了40%,同时有助于确高达至1.6T以太网速率的可靠数据。经过硅验证的224G以太网PHY IP还可以提供强大的链路性能、出色的信号完整性和跨通道长度的无缝生态系统互操作性。
该款1.6T以太网验证IP,还采用了原生SystemVerilog和通用验证方法实施,可缩短首次测试时间。它还提供业界首款1.6T验证IP(VIP),支持早期RTL验证、SoC启动和系统级验证,为设计人员提供快速实现设计验证收敛的途径。
新思科技完整1.6T以太网解决方案特点总结如下:
与现有已实施方案相比,1.6T以太网IP解决方案可将互连损耗最多可降低50%;
与现有多速率800G IP解决方案相比,新型多通道/多速率以太网控制器可支持1.6T,延迟最多减少40%,面积最多减少50%;
可定制的、经过硅验证的224G以太网PHY IP,可支持芯片到芯片、芯片到模块和铜缆连接,从而对功耗和性能进行了权衡优化;
新思科技面向1.6T以太网的验证IP,通过一整套协议、方法和生产力提升等优势加速了验证收敛速度。
正因为新思科技款1.6T以太网解决方案具有的上述诸多优势,目前它也已经被多家客户采用,助力他们快速、便捷地开发面向人工智能和高性能计算等应用的产品。
结语
迈入人工智能时代,数据和连接将是最为关键的两个因素,它们之间相辅相承,不断增长的数据量需要更宽的带宽和更快的传输速率进行传输,为此也推动着网络技术的快速迭代。虽然,目前1.6T以太网的标准还没有最终出炉,但不可否认的是,它将是未来的主流连接技术。而新思科技推出的完整1.6T以太网IP解决方案,可以提供高速数据连接,未雨绸缪,为未来做好准备,让人工智能时代连接无忧。
END