智算中心需要怎样的网络架构技术？

原创 TechSugar 2024-10-15 08:01

构建AI未来，Arm计算平台无处不在 如何提升高压系统的实时性能?

人工智能技术以及大语言模型（LLM）应用的普及，对于算力的需求激增，也推动了各国对于数据中心的建设。其中，作为数据中心的一种，智算中心由于其具有的强大数据处理能力和智能计算能力，正成为最受关注的数字基础设施。

什么是智算中心？

那什么是智算中心呢？根据工信部印发的《算力基础设施高质量发展行动计划》，智算中心是指通过使用大规模异构算力资源，包括通用算力（CPU）和智能算力（GPU、FPGA、ASIC等），主要为人工智能应用（如人工智能深度学习模型开发、模型训练和模型推理等场景）提供所需算力、数据和算法的设施。

康普企业网络大中华区技术总监吴健则认为，从国际角度来讲，智算中心（即所谓的AI DC）还没有一个专门的定义。在中国市场则被定义为一个新的品类，它是数据中心的一类，即在数据中心中为了完成大模型的训练和推理，部署了GPU的服务器，这样的数据中心就称之为智算中心。而且，数据中心中GPU服务器的占比将越来越高，在2027-2028年前后，GPU服务器数量将超过CPU服务器的数量。

据悉，目前已经建成或正在建的智算中心普遍拥有约100PFLOPS左右的智能计算能力，可为各类应用场景提供强大的支持。据IDC的不完全统计，到2024年5月下旬，我国共建设了283座智算中心，其中超过一半处于开工/在建状态，已投产/运营的达到89座，占比31.45%。

智算中心三要素及网络互连技术

算力、网络和数据是完成智算的三个要素。其中，数据是智算需要处理的对象；算力是指处理计算的芯片（如CPU和GPU等）的能力。CPU和GPU它们处理数据的方式是不同的，CPU一次只能处理一个复杂的任务，而GPU则采用并行计算，一次可以处理多个简单的任务。如上所述，在智算中心中，GPU的数量大幅增长，而其采用的并行计算方式，也大幅提高了算力。算力提高了，也就需要配套的传输网络与之相匹配。

吴健表示：“GPU算力每年翻两倍，10年就要翻1000倍。那也就预示着，网络也应该10年翻1000倍才能与之相匹配。所以，目前的网路已经滞后于算力。智算中心随着GPU的应用，它需要一个高可靠、高带宽、低延时的无损网络。”

所以，随着智算的快速推进，400G以上网络的占比将占主导地位，包括400G、800G和1.6T。

目前，智算中心采用的网络互连技术主要为InfiniBand（IB）和以太网。吴健表示：“AI需要IB和以太网两种网路设备来支撑。目前，这两种技术的速率发展较为同步，都会快速进入到800G、1.6T。但IB在整个智算中的效率、稳定性要比以太网好一些。”

从物理层而言，IB和以太网是一样的，但IB和以太网使用的交换机则是不同的。很多人认为，以太网可能无法跟上IB的演进速度，因为IB是一个无损网络，而以太网则不是一个专用网络，很难做到无损。吴健表示：“目前，从协议层和硬件层面进行一些技术的优化，以太网也可以做到无损了。”

所以，未来，吴健认为，至少在中国市场，以太网取代IB是势在必行的。

智算中心组网

智算中心的组网主要分为前端网络和后端网络。前端网络是指智算中心和外部的互连，即将智算中心计算的结果通过前端网络传输出去；而后端网络则是指GPU之间的互连。

与传统网络相比，智算中心的前端网络没有多大变化，但后端网络变得特别的庞大，涉及AI集群内的互连以及AI集群间的互连。智算中心中的网络需要高带宽、低损耗、低延时以及高密度的连接，可以未来还将需要更小尺寸的连接器进行连接，并解决回波损耗等问题。

这些网络都是由线缆连接而成，未来，随着网络速率的提高，光线的数量将会提高。在整个AI集群中，除了光纤布线，还有线槽，以及铜缆连接等。

吴健表示：“康普在AI布线市场已经布局多年，已取得了非常大的成功，包括一些万卡集群以及一些高性能的布线系统，康普都能提供对应的解决方案。”

康普的布线解决方案不仅满足客户当下的需求，也能帮助他们实现长期规划。吴健表示：“目前国内数据中心的设计相对来说还比较缺乏前瞻性，只进行一两年的规划，而不考虑长远使用，这其实很浪费材料，不环保。”

康普企业网络大中华区总经理兼副总裁陈岚表示：“现在很多数据中心的项目将布线做成了次抛型，这是很不环保的。网络基础架构采用结构化布线，虽然初次成本可能稍微高一点，但后续升级、扩展以及维护的成本很低，且使用的生命周期很长，从长远来看反而节省了成本。”

写在最后

随着人工智能以及大语言模型等技术的飞速发展，对于算力的需求大幅增长，而网络作为支撑这些技术的传输“骨干”，也需要齐头并进。而在整个网络基础设备的构建中，布线虽然是不太起眼的一部分，但它可以说是智算中心的“血管”，起着举足轻重的作用。而随着对更环保化、更据经济效益的布线方式需求的增长，结构化布线或许会是未来智算中心布线的主流方式。对于布线供应商来说，着眼现在，布局未来，才能在这一波AI浪潮中立于潮头。

END