最近在加州圣克拉拉公司总部举行的分析师大会上,Marvell高管明确表示,“人工智能”不仅仅意味着人工智能,还意味着必须加快基础设施建设。
人工智能通常又分为传统人工智能和生成式人工智能。虽然已证明现有数据中心基础设施至少足以满足前者的目前需求,但后者正在推动数据中心基础设施设计的根本转变,以解决计算、内存和电源的爆炸式增长需求。
Marvell的高管们认为其战略已经前瞻地考虑到了生成式人工智能的这些最新发展。因此,首席运营官Chris Koopmans重申公司之前发布的战略,即专注于开发“移动、存储、处理和数据保护” 半导体技术。他说,公司战略已经在为数据处理的爆炸式增长做准备,而生成式人工智能恰好是目前推动需求的数据密集型应用,正在推动进入加速基础设施新时代。
什么是加速基础设施?
Marvell产品和技术总裁Raghib Hussain,将高水平的加速基础设施描述为高度复杂的计算资源与高速、低延迟连接的结合。然而,从更深入的角度来看,这不仅仅事关器件的功能,还包括用于构建数据中心的拓扑结构。
通常设计传统数据中心用于处理多个工作负载,这些工作负载由大小已知且结构良好的数据组成。大多数数据中心通信通常具有“南北”性质,即通信基本上都是在数据中心与类似于另一个数据中心的一些外部设备(即访问数据中心里的应用程序或数据的客户端)之间进行。
图1:传统的通用数据中心。(本文图片来源:Marvell)
另一方面,加速基础设施数据中心(主要设计用于人工智能工作负载)必须支持大数据量,这些数据量可以是结构化的,也可以是非结构化的,通常不适合单台服务器。因此,在同一数据中心内,加速基础设施在需要强大的“南北”通信的同时,也需要进行更多的“东西”通信,即服务器到服务器的通信。
这对服务器到服务器的带宽和延迟要求带来影响,而这最终会推动交换机和互连功能的发展。它还推动了数据中心的拓扑结构,人工智能加速的基础设施需要更平坦,每台交换机所需的服务器更少,服务器之间的网络带宽更高,服务器与数据中心互连(DCI)之间的交换层更少。DCI将一个数据中心连接到其他数据中心。
图2:人工智能数据中心。
是的,计算是至关重要的,但……忽视交换和互连会带来危险
围绕生成式人工智能的大部分对话,主要都集中在模型训练、推理以及支持工作负载的核心组件上,而像处理资源这类组件也会消耗一些,这类组件包括中央处理单元(CPU)、图形处理单元(GPU)和神经处理单元(NPU),内存资源以及管理这些资源的所有组件。虽然这些组件在加速的基础设施中至关重要,但同样重要的是(即便不是更重要的话)确保使所有其他组件都能正常运行的互连和交换设计。
如果这些组件设计不足,就可能会导致性能瓶颈,从而浪费处理器和内存的高级功能。为了帮助理解这一点,这里以一个数据中心为例:该中心设计了价值10亿美元的服务器,由最新和最棒的CPU、GPU和NPU提供动力,但在网络和交换解决方案方面有所欠缺。这一欠缺导致拥塞和带宽限制,禁止数据中心充分利用可用的计算资源,从而导致计算资源低效率。即便保守计算,该性能降低也有10%,如果有效地转化为价值的话,这也意味着带来1亿美元的损失。而IT经理很难证明这种浪费是合理的。
在这种背景下,Marvell认为对面向人工智能工作负载的加速基础设施尤为重要的两项技术为:光网络和以太网交换。
就给定的部署来说,选择哪种网络连接解决方案最适合,取决于距离、速度、可靠性和上市时间等因素。铜线的成本最低,但最适合用于较短的距离和较慢的速度。为了支持更高的速度,铜线的直径需要更大,这带来了物理挑战和限制。其中一些可以通过加入DSP而构成所谓的有源电缆来缓解,从而有助于提高速度和距离,同时也支持使用更细的电缆。然而,这只能在一定程度上有所帮助。另一方面,光缆更昂贵,但可以实现更快的速度和更长的距离。在带宽和规模至关重要的加速基础设施中,Marvell认为光缆最终是唯一能够满足数据中心人工智能工作负载需求的解决方案。
同样,Marvell建议将具有高带宽和低延迟功能的以太网交换作为加速基础设施的基础。它不仅是对现有云基础设施的补充,而且是一种广泛采用的开放标准,可在各种硬件的完整生态系统中支持互操作。然而,以太网确实需要继续增强,不仅要提供更高的带宽和更低的延迟,还要提高拥塞适应性。
考虑到巨大的数据量需要移动,以及人工智能用例的延迟依赖性,拥塞适应性对于加速基础设施扩展到支持未来人工智能工作负载所需的程度极为重要,虽然现在有一定程度的拥塞适应性,但其消极性很强,远远不能达到实时响应,Marvell网络交换高级副总裁兼总经理Nick Kucharewski强调道。
以太网交换中的拥塞管理,需要具有高度的适应性,这不仅是因为网络负载条件的动态变化,还因为每个超规模/云运营商都有自己的优化方式,解决方案需要支持这些技术的轻松实施。此外,以太网交换将需要具有实时和自动响应能力。这将需要将以太网交换提升到纯粹的高速度和馈送之上,包括为其引入智能。
加速进入人工智能时代
虽然人工智能似乎在一夜之间取得了成功,但那些正在收获生成式人工智能时代早期回报的人们会认为,这绝非易事。因为实际上,目前利用人工智能所开发解决方案的各种策略,都是在ChatGPT出现之前好几年就已经设计好并实施的。
所以,加速基础设施战略也不例外。也许更重要的是,Marvell正在充实生态系统中的一个领域,这个领域往往被处理技术的闪亮进步所掩盖,但对实现生成式人工智能的下一阶段同样至关重要。如今的挑战是,如何随着人工智能模型的规模、用例以及最终的应用激增,还能持续保持在创新浪潮的前沿。
(参考原文:how-to-manage-uncertainty-when-creating-iot-solutions-for-enterprises)
本文为《电子工程专辑》2024年3月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅
