AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
英伟达发布新一代GPU架构,NVLink连接技术迭代升级
大模型语言模型:从理论到实践
技术展望2024:AI拐点,重塑人类潜力
英伟达GTC专题:新一代GPU、具身智能和AI应用
AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
GPU深度报告:英伟达GB200 NVL72全互联技术,铜缆方案或将成为未来趋势?
人工智能系列专题报告:CoWoS技术引领先进封装,国内OSAT有望受益
软硬件融合:从DPU到超异构计算
《大模型技术能力测评合集》
交换机是算力网络的核心,可以为接入交换机的任意两个网络节点提供独享的电信号通路,具备大缓存、高容量、虚拟化等特征,是算力网络高效传输的基石。随着大数据、云计算、大模型等新型信息技术的发展,对现代通信网络提出了更高的要求。近年来,400G交换机逐渐进入大型数据中心,正在成为大型数据中心的首要选择。
铜缆的优势在于制造和安装的成本较低,其金属的可塑性和柔韧性能够应对大多数应用环境,便于维护。铜缆双绞线是由多股铜芯以特定规则扭绞在一起的线缆类型,在电力输送和网络通信领域应用广泛。结合铜缆自身的优缺点,2022年诞生了一种使用铜缆的400G传输协议,将同轴高速线用在距离较短的机柜内传输。
光纤传输相比铜缆信号传输网络传输的时延更低、带宽更宽、损耗更小。随着大模型和高智能计算机的进一步发展,对于算力和算力网络提出了更高的要求,需加快推进波分复用光纤(WDM)、CPO、空芯光纤等新型光纤相关研究和应用探索。在51.2T交换机时代,CPO技术将凭借更快更稳定的光传输,保障网络通信能够满足新时代的应用需求;空芯光纤已被验证在高性能光通信中的可能性,存在超低时延和宽谱特性等潜在应用前景。
铜缆双绞线的传输距离较短,且存在信号衰减等问题,在数据中心内仅用于设备管理和基础设施设备通信,而不能作为高速传输介质使用。光纤利用光的全反射原理进行信号传输,具有速度快、低衰减、高带宽等特性,通常传输距离100米以上就需要考虑光纤传输,且100G及以上的传输速率超过柜间级别的传输就基本只能使用光纤,如果采用单模光纤传输甚至可达到数公里。光纤常应于柜间、模块间以及数据中心之间互联,完全满足了传统电信业务机房和消费互联网业务为主的数据中心互连需求。
普通非屏蔽铜缆的抗干扰性一般,数据传输容易被监控,仅需通过物理连接便可获取传输号,甚至控制交互,且断裂的铜缆只需拼接在一起即可继续使用,不影响信号传输。但是屏蔽铜缆能够有效避免干扰信号,提升铜缆的安全性。光纤中传输的光脉冲很难被检测与监控,且检测与监控成本巨大,断裂的光纤需要特定的设备进行熔接和机械拼接,成本高,难度大。
400G,不仅仅是一个速率标识,它代表着一项带技术的进步,对数据传输领域有着重要意义。要了解这些标准的特点,有必要了解命名方式。400G传输技术标准的命名规则如下,以SR结尾的表示多模传输,以DR、ER、LR、FR等结尾的通常是基于单模传输,CR是基于同轴的传输形式。在标准制定领域,400G的演进已经展现出了令人瞩目的进展。
随着国家“东数西算”重大工程的持续推进,数字中国的深入建设,电商、娱乐、教育、媒体等领域在信息化和人工智能大模型的兴起,对于算力提出了更高的需求。随着400G交换机商用逐渐普及,其更高的带宽、更低的时延与更低的成本,有效解决了大容量电信提供商、大型数据中心以及企业关于流量持续增长带来的诸多问题。
400G网络在布线阶段会依据单通道速率、调制方案、何种波分复用技术、传输距离、网络传输接口形式、光纤类型、MTP/MPO系统的Pin针及极性、宜采用预端接布线系统、宜考虑智能系统AIM或DCIM进行管理等因素,采取不同的网络布线设计。其中,主要影响布线设计的因素是传输距离。
400G通常有4种方式,一是单通道型,即端口与端口的简单直接连接;二是四通道并行传输,即采用多个单通道的并行传输;三是多通道扇出/聚合,即光模块端向下扇出多个单通道/多通道速率的端口;四是单通道内多波长并行传输,此连接方式主要用于多模型收发器。
400G网络布线方案通常要先根据机房平面图以及网络拓扑图来界定交换机端和服务器端的连接数量及对应的长度,明确配线架的密度和水平缆的类型,再按自下往上的顺序进行端口需求分析,明确连接头的类型与跳线的选择,最后得出网络布线传输方案。在高端数据中心建设当中,400G超高密度ENSPACE预端接光产品解决方案是较为成熟可靠的方案之一。
算力网络将加快向800G、1.6T等下一代互联速率演进。中国已启动800G的标准化和测试研究。IEEE、OIF、IPEC、CCSA等组织目前正在加速推动800G标准研制工作。2019 年中国信通院与华为等启动DCCNG项目,研究800G的关键技术与应用,并将部分成果应用到IEEE国际标准中;2021年,中国信通院联合中国移动、中国电信、华为和思博伦等启动800G测试研究项目。2022年发布的51.2T交换芯片支持64端口800Gb/s,标志着800G以太网的开发进入了实际的硬件阶段。2023年,IEEE发布了第一版IEEE802.3df标准,该标准定义了800G以太网的物理层规范。同时,OIF也发布了224 Gb/s标准,为构建800G和1.6T系统提供了112 Gb/s和224 Gb/s通道的指导。按照行业趋势中CPO2-3年的静默期来看,1.6T网络开发预计将在2025年完成。
中国算力网络演进将逐步从算网协同、算网融合走向算网一体。首先,算网协同阶段的核心目标在于优化算力网络基础设施布局,实现云计算与网络资源的对接和协同。在这一阶段,编排管理层和基础设施层的算网设施仍然相互独立,但可通过资源协同,向客户层实现算网一体的产品输出。
下一步是算网融合阶段,“算”和“网”在基础设施层初步融合,在编排管理层实现统一管理、编排、调度和运维,并在服务层继续输出一体化服务。这一阶段,“算”和“网”在逻辑架构方面逐渐趋同,资源管理和服务调度互相融合,输出真正意义的上的“算网产品”。算网一体是算力网络的最终目标,将实现算、网在协议、形态的完全共生,打破技术边界。从用户视角来看,存储、计算与网络走向融合,用户可以直接使用多层次、统一化的算力资源。
量子计算:打破传统范式,通用计算应用可期
面向超万卡集群的新型智算技术白皮书(2024)
《NVIDIA BlueField系列合集》
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。