今年初,以ChatGPT为代表的AIGC应用横空出世,火爆程度席卷全球。国内互联网公司也争相进行大规模的大模型投资,几家的产品已经面世。由此带来的问题之一是GPU的互连接口和带宽,国内此前采用的通用以太网架构大多基于400G体系,第三代与第二代400G的不同之处在于前者的host板卡侧基于下一代112G Serdes/PHY,可以非常灵活地过渡升级到800G系统。
因此,目前国内大型互联网公司在AI大模型的互联方面大多采用800G接口降速为400G的应用,但在后续接口应用上,实际上都是基于112G技术。
就目前而言,400G还能够满足AIGC的需求,但随着GPT-4和GPT-5对算力要求的不断增加,预计下一代GPU互联需要超过800G带宽才能满足需求,这也将推动整个产业链迅速转向下一代基于112G的新架构和多沟通模型。
“如今,不仅是板卡内部通信,甚至板卡之间以及与交换机的连接,都采用了这种典型的结构。在连接需求剧增的情况下,如何确保多通道112G在不同的情况下能够稳定运行,是目前整个产业链正在努力解决的问题。” VIAVI大中华区技术总监沙慧军在第24届中国国际光电博览会(CIOE 2023)上接受《电子工程专辑》采访时说到。
VIAVI大中华区技术总监沙慧军
从400G到800G,需要注意什么?
那么从切换过程来看,从400G到800G,需要特别注意的点有哪些呢?
沙慧军认为,AI大型模型是一个整体系统,涵盖了芯片、板卡、服务器和交换机,最终构成了需要相应资源调配的后端管控系统。在光通信方面,首要考虑的是光模块和IOC电缆等光连接技术,这些光连接涉及的距离可能从3米、10米甚至到100米不等,典型的互联方式各有不同。
因此从400G切换到800G系统时,有几个核心要点值得注意:
首先,要关注光模块的封装。硅光对下一代AI应用而言是非常重要的技术,因此现在的光模块设计更注重性能。目前硅光是单模技术,但随着技术发展,最终可能在成本上与传统多模光技术持平,由此带来的集成度会更高。
其次,数字信号处理(DSP)。尽管目前出现了一些线性驱动可插拨光模块(LPO)技术,但目前主流应用仍然基于DSP技术,关于这两者的性能平衡问题,学术界和行业内还存在不同看法。部分声音认为DSP和LPO已经达到了良好的性能平衡,可以在许多交换机上应用来实现更好的性能;另一部分则认为LPO技术在前10分钟内性能非常好,但随着时间推移,Margin会越来越低,直接导致热噪声,没有DSP的情况下,反射或温度带来的效应会加重后端主芯片处理的压力。
如果能实现DSP和LPO之间的平衡,就能确保在不同环境条件下,交换机长期稳定运行。据沙慧军透露,在本次光博会上就有厂商基于VIAVI的仪表为进行了LPO演示。“我看到一家公司基于QS11四通道的100G通道硅光技术,经过6-7小时测试,FEC的盈余(Margin)达到4级仍是非常稳定的状态,这就是非常出色的性能体现。”
最后,112G技术成熟度。这涉及到从插件、PCV、先进封装和交换机性能、系统集成和处理等方面整个产业链,现在每一步看起来都面临着巨大的挑战。目前整个产业链中只有少数头部企业在这方面进行研发。
“但是我们今天讨论800G,明年也许就会讨论1.6T。” 沙慧军说到,这是AI大模型超前部署或大规模部署导致的数据流量的变化带来的加速,光模块厂家必须提前布局。
800G高速以太网测试利器
鉴于现下高速网络需求的不断升级,为保证新一代设备的性能和互操作性,以顺利实现技术的快速采用,800G组件的实验室测试和验证愈发重要。通过简化并加速实验室测试,厂商可更快地将800G网络设备推向市场。
VIAVI在现场展出了面向光通信领域全面的解决方案产品组合,覆盖到前沿光通信技术的创新成果,以展示光电协同、光电集成的综合解决方案,其中包括:
ONT-800光网络测试仪:该测试仪针对高速网络的高性能实验室和生产测试,可进行深层配置的多协议、多端口测试,适用于光传输IC、模块和系统的研发和系统校验。其设计可满足400G器件的电源和冷却需求以及800G光插拔。
OneAdvisor-1000:便携式400G高速网络测试仪为技术人员和工程师提供安装和维护高容量网络所需的所有测试功能, 支持新兴技术和传统技术,适合用于城域网/核心网、数据中心互连以及商业服务测试。
MTS-5800通信测试仪器:手持式双端口测试仪MTS-5800非常小巧,可在网络服务生命周期的各个阶段进行测试,包括光纤测试、服务激活、故障排除以及维护。
第三代多应用平台MAP-300:这是一款经过优化的光测试和测量平台,可用于光通信技术的高效益开发和制造。作为VIAVI光学测试解决方案的核心,MAP系统可用于实验室和制造应用,能够满足用户当前和未来的需求。该平台为整个产品组合提供了基础,并且为制造光网络元件、模块和组件实现了可扩展性和效率。
来自VIAVI德国研发中心的全球高速传输产品线经理Ines Brunn女士,着重介绍了全新高速以太网(HSE)测试解决方案HSE-800,这也是HSE-800平台首次在中国进行展示。
VIAVI全球高速传输产品线经理Ines Brunn女士在为参展工程师们介绍HSE-800
据介绍,HSE-800多端口解决方案是VIAVI ONT-800平台的升级版,为ONT-800的物理层测试功能提供了补充。HSE为集成电路、模块和网络系统公司提供了高速设备,用于测试高达128 x 800G的能力。它提供了物理层测试功能,具备先进的流量生成和分析功能,用于排除故障和测试集成电路和可插拔接口的功能和性能,以及交换和路由设备及网络。
Ines透露,HSE-800平台即将全球发货,首批货物会交付给最重要的几个全球伙伴,现在已经开始接受包括中国第一批客户在内的订单。
VIAVI高速以太网(HSE)测试解决方案HSE-800
从运营商市场,拓展到互联网市场
谈到推出这个升级平台的初衷,Ines表示,过去VIAVI主要关注运营商设备市场,特别是和光通信相关的传输市场,而传输市场更多地涉及多业务的应用。“在传输网络中,通常采用OTN(光传输网络)的方式,VIAVI在这方面拥有几十年的技术经验,很多的测试规范起草都离不开VIAVI的支持。”
近年来,运营商设备行业的技术投资和迭代速度相对较慢,而随着100G到800G的发展,中国云服务提供商和电商行业快速崛起,意识到行业变革的VIAVI决定投身互联网行业(也可归类为数通行业)。
在进行大量研究,并与众多客户进行沟通后,VIAVI看到了数通领域的一些关键趋势以及对更强大物理测试平台的需求:
首先,端口密度的增加。过去的测试重点是通信通道性能,一两个端口已足够进行端到端测试,每个端口需要去覆盖多业务的应用场景,比如以太网、OTN、SDH。而现在的应用趋势是需要支持多速率和多端口,处理路由和交换信令以及更多的分组的理念,更多地看重以太网协议。
第二,每一代技术迭代的时间窗口越来越短。以前一代技术可以用十年,现在一代技术只能覆盖2-3年,如今业界甚至已经开始讨论下一代224G技术。随着速率的提升,衰耗、反射、串扰、抖动等效应对通信性能影响非常之大,“虽然一些数通测试厂商也有高密度方案,但我们的优质输出信号可以更好地提供测试基准,给客户搭建更大的网络模型构架。” 沙慧军说到。
最后,融合测试方案成为市场的大方向。在AIGC刚刚兴起时,VIAVI看准实际推出新一代基于800G速率的高密度测试方案,最大可拓展到100T测试容量。目前交换机普遍最大能达到51.2T,而VIAVI的测试仪表可跨度到102T,覆盖下一代测试能力的要求。
应对全球网络的改变
在移动互联网出现之前,人们更多的是以家庭宽带的方式接入互联网,在运营商侧体现出的是常规流量。而从移动互联网出现,到4G时代出现的在线视频点播、在线购物,改变了这一流量模式。电商迅猛的发展对网络的改变起到了决定性作用,带来了大量的互联网企业对于无论集中式还是分布式数据中心DCI网络的投资,这是过去很长一段时间以来,流量增长的主要领域。
而今年网络上的改变,更多的是高速计算带来的局部爆炸性增长,以及并行计算带来的数据需求。
“这与以往有很大不同。” 沙慧军说到,高速存储带来的压力是在某一个集群内部的数据量交互,每一个端口实时性和各个地方完全无阻塞的交互变得更加重要。另一个重要方面是物理层指标的要求,“一般评估一个端到端链接时,纠前误码率一般10的-15次方是足够的。但最近头部企业对于AI模型的限制方面,要求物理层的纠前误码达到10的-24次方。”
据悉,这是因为在这类构架上高速并行计算中的任何一次损失或缺陷,就可能对网络重构带来巨大影响,只有保证物理层在零风险的情况下,才能达到高效的重构要求。
此外,对于局部大模型数据的要求,物理单接口数据带宽会成倍快速地增长,预计明年1.6T的新时代将会到来。
为了应对高速接口快速迭代带来的行业挑战,VIAVI采用一站式方案帮助产业链快速过渡到下一代高速接口,并确保客户不同形态技术分支的设计,能够达到行业的要求,并留出足够的Margin。
中国厂商在哪些领域可能迎头赶上?
谈到未来看好的硅光技术应用领域,沙慧军认为从目前看来,人工智能领域非常热门,也正在对中国产业链产生重大影响。此外中国正在全力发展的芯片产业,在设计和制造上也依赖一些基本的光技术。如果能够攻克其中的技术难题,将带来大量的市场机会。
“芯片行业在未来几年非常重要,目前我们看到更多的光模块应用在半导体制造主设备上。例如一些厂商推广的DCI BOX因为采用了标准化设计,大大简化了设备互联的难度,让设备厂商把更多焦点放在光模块的核心部分上。” 沙慧军说到,客户端模块如果涉及硅光技术,硅光引擎是一个关键点,而DSP则是最核心的技术。其他如封装和量产,通常中国公司都可以完成。
此外,相干光模块领域的门槛较高。由于如今网络架构趋于扁平化,整个网络开始更面向开放的构架。以前模块承担的职责是一个系统、一块板卡承担的工作,而现DCO或ZR技术已经被国内外很多互联网公司广泛应用。
但相干光模块最关键的几个组件,国内公司是已经能够完全自主开发?还是严重依赖国外供应体系?还要打个问号。众所周知,中国公司的产业化能力非常强大,是外国企业望尘莫及的。然而在某些上游领域,要实现对国外巨头的超越还需要比较长的时间。
“以下一代224G为例,国内也出现了许多硅光领域新公司,它们采用了全新的微光方案,未来达到224G在技术层面是可行的。” 沙慧军说到, “如果国内公司能够攻克相关技术难题,这将为整个市场带来巨大的机会。”
- 厉害