人工智能技术以及大语言模型(LLM)应用的普及,对于算力的需求激增,也推动了各国对于数据中心的建设。其中,作为数据中心的一种,智算中心由于其具有的强大数据处理能力和智能计算能力,正成为最受关注的数字基础设施。
什么是智算中心?
那什么是智算中心呢?根据工信部印发的《算力基础设施高质量发展行动计划》,智算中心是指通过使用大规模异构算力资源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要为人工智能应用(如人工智能深度学习模型开发、模型训练和模型推理等场景)提供所需算力、数据和算法的设施。
康普企业网络大中华区技术总监吴健则认为,从国际角度来讲,智算中心(即所谓的AI DC)还没有一个专门的定义。在中国市场则被定义为一个新的品类,它是数据中心的一类,即在数据中心中为了完成大模型的训练和推理,部署了GPU的服务器,这样的数据中心就称之为智算中心。而且,数据中心中GPU服务器的占比将越来越高,在2027-2028年前后,GPU服务器数量将超过CPU服务器的数量。
据悉,目前已经建成或正在建的智算中心普遍拥有约100PFLOPS左右的智能计算能力,可为各类应用场景提供强大的支持。据IDC的不完全统计,到2024年5月下旬,我国共建设了283座智算中心,其中超过一半处于开工/在建状态,已投产/运营的达到89座,占比31.45%。
智算中心三要素及网络互连技术
算力、网络和数据是完成智算的三个要素。其中,数据是智算需要处理的对象;算力是指处理计算的芯片(如CPU和GPU等)的能力。CPU和GPU它们处理数据的方式是不同的,CPU一次只能处理一个复杂的任务,而GPU则采用并行计算,一次可以处理多个简单的任务。如上所述,在智算中心中,GPU的数量大幅增长,而其采用的并行计算方式,也大幅提高了算力。算力提高了,也就需要配套的传输网络与之相匹配。
吴健表示:“GPU算力每年翻两倍,10年就要翻1000倍。那也就预示着,网络也应该10年翻1000倍才能与之相匹配。所以,目前的网路已经滞后于算力。智算中心随着GPU的应用,它需要一个高可靠、高带宽、低延时的无损网络。”
所以,随着智算的快速推进,400G以上网络的占比将占主导地位,包括400G、800G和1.6T。
目前,智算中心采用的网络互连技术主要为InfiniBand(IB)和以太网。吴健表示:“AI需要IB和以太网两种网路设备来支撑。目前,这两种技术的速率发展较为同步,都会快速进入到800G、1.6T。但IB在整个智算中的效率、稳定性要比以太网好一些。”
从物理层而言,IB和以太网是一样的,但IB和以太网使用的交换机则是不同的。很多人认为,以太网可能无法跟上IB的演进速度,因为IB是一个无损网络,而以太网则不是一个专用网络,很难做到无损。吴健表示:“目前,从协议层和硬件层面进行一些技术的优化,以太网也可以做到无损了。”
所以,未来,吴健认为,至少在中国市场,以太网取代IB是势在必行的。
智算中心组网
智算中心的组网主要分为前端网络和后端网络。前端网络是指智算中心和外部的互连,即将智算中心计算的结果通过前端网络传输出去;而后端网络则是指GPU之间的互连。
与传统网络相比,智算中心的前端网络没有多大变化,但后端网络变得特别的庞大,涉及AI集群内的互连以及AI集群间的互连。智算中心中的网络需要高带宽、低损耗、低延时以及高密度的连接,可以未来还将需要更小尺寸的连接器进行连接,并解决回波损耗等问题。
这些网络都是由线缆连接而成,未来,随着网络速率的提高,光线的数量将会提高。在整个AI集群中,除了光纤布线,还有线槽,以及铜缆连接等。
吴健表示:“康普在AI布线市场已经布局多年,已取得了非常大的成功,包括一些万卡集群以及一些高性能的布线系统,康普都能提供对应的解决方案。”
康普的布线解决方案不仅满足客户当下的需求,也能帮助他们实现长期规划。吴健表示:“目前国内数据中心的设计相对来说还比较缺乏前瞻性,只进行一两年的规划,而不考虑长远使用,这其实很浪费材料,不环保。”
康普企业网络大中华区总经理兼副总裁陈岚表示:“现在很多数据中心的项目将布线做成了次抛型,这是很不环保的。网络基础架构采用结构化布线,虽然初次成本可能稍微高一点,但后续升级、扩展以及维护的成本很低,且使用的生命周期很长,从长远来看反而节省了成本。”
写在最后
随着人工智能以及大语言模型等技术的飞速发展,对于算力的需求大幅增长,而网络作为支撑这些技术的传输“骨干”,也需要齐头并进。而在整个网络基础设备的构建中,布线虽然是不太起眼的一部分,但它可以说是智算中心的“血管”,起着举足轻重的作用。而随着对更环保化、更据经济效益的布线方式需求的增长,结构化布线或许会是未来智算中心布线的主流方式。对于布线供应商来说,着眼现在,布局未来,才能在这一波AI浪潮中立于潮头。
END