AI网络为什么需要以太网？

谈思实验室 2025-01-13 17:54

万亿市场风口怎么抓？5场研讨会解锁3D IC设计“通关秘籍” UCIe 2.0协议“死磕指南”！Avery VIP如何实现0缺陷互连？

点击上方蓝字谈思实验室

获取更多汽车网络安全资讯

我们正置身于一个日新月异的网络时代，每一次技术革新都引领着新的潮流。回顾过去，云服务作为一个划时代的重大技术革命，催生了全新的大规模网络和基础设施构建方法。在这一背景下，基于标准的以太网交换技术崭露头角，成为连接大型“scale-out”服务器集群的关键。

如今，人工智能革命正为云网络领域带来前所未有的变革。它不仅在规模和性能上提出了更高要求，还对低延迟和高带宽提出了迫切需求。尽管人工智能仍处于发展的初级阶段，但其潜力已经得到广泛认可。随着企业和个人纷纷采用这一技术来提升生产力，人工智能将在众多市场中持续壮大。这将不断推动云服务和企业的带宽、计算资源达到新的极限。为了应对这一挑战，我们需要积极构建新系统，以支持人工智能所需的海量数据和计算资源。

本文将深入探讨人工智能基础设施的关键发展趋势，并阐述如何将以太网等成熟技术与创新实践相结合，来应对当前面临的挑战。在人工智能网络基础设施不断发展的过程中，我们应关注以下几个方面：

多样化的人工智能网络需求：随着人工智能应用的不断扩展，我们需要满足不同场景下的网络需求，包括用于训练和推理的大规模网络。
以太网技术的持续创新：为了满足人工智能对网络规模的更高要求，我们需要不断推动以太网技术的革新和发展。
企业基础设施的统一与优化：为了降低人工智能服务和应用的成本，企业需要部署统一的人工智能网络基础设施和运营模式。

接下来，让我们继续探索以太网将如何进化，以更好地满足高性能人工智能网络的需求。

人工智能繁荣下的新一代网络需求

人工智能正以前所未有的速度颠覆着云和IT行业。自2022年11月Chat GPT问世以来，这一领域便掀起了投资热潮，并持续吸引着公众的关注。在这一背景下，各大云提供商纷纷推出新产品和服务，以满足日益增长的人工智能需求。与此同时，大型企业也在积极探索生成式人工智能（GenAI）和其他AI用例，以期提升运营生产力和投资回报率（ROI）。

除了OpenAI的ChatGPT之外，很多大型云提供商也研发了自己的大型语言模型（LLM），如阿里的通义千问、百度的文心一言、谷歌的Gemini、Meta的Llama等。这些LLM及相关服务的大规模投资和推出，不仅展示了人工智能的巨大潜力，也推动了整个行业的发展。

然而，LLM的开发需要前所未有的计算和网络规模。为了满足这一需求，计算集群需要连接数千个GPU，并利用收集的海量数据进行模型训练。除了GPU之外，AI系统还需要额外的处理能力，如CPU、TPU等，以优化数据的处理和传输方式。

当然，大规模LLM只是人工智能领域的一部分，许多企业也在考虑其他人工智能选择。他们希望利用自己的数据进行重点用例的开发，通过采用小型语言模型（SLM）以及私有人工智能等多种方式。在某些情况下，还会存在混合解决方案，例如利用云提供商进行模型训练，同时保留数据和推理在私有系统上。

人工智能网络发展的关键要求

人工智能的崛起对云服务提供商和企业数据中心的基础设施需求产生了深远的影响。这一变革的核心驱动力在于数据，它是人工智能发展的关键“燃料”。数据的收集、保护与传输成为组织在探索人工智能新应用时必须面对的首要挑战。组织正权衡是否应与其他AI系统共享数据，或是仅依赖私有数据构建专属的人工智能模型，并探索所需的新型安全与网络基础设施以支撑数据的传输与存储。

以下是构建人工智能网络基础设施的首要考虑因素：

速度。人工智能服务的快速发展正在加快对数据中心及边缘网络的速度需求，推动网络向400 Gbit/s乃至800 Gbit/s的新一代迈进。
隐私和安全。网络必须高效处理数据，同时确保高端加密与多租户环境的安全性，这是保护数据隐私的关键。
边缘推理。目前大家关注更多的是后端训练，但随着企业部署LLM或SLM及私有AI云混合方案，推理能力的前端部署将成为焦点。
短JCT和低延迟。除了低延迟外，减少JCT至关重要，它可能因冲突和错误而延长。优化网络以提供无损传输，通过拥塞管理和负载平衡确保最有效带宽利用，是实现快速JCT的关键。
灵活的集群。在AI数据中心，处理器集群可配置成多种拓扑结构，优化性能需避免层或区域间的超额订阅，减少JCT。
支持多租户。出于安全考虑，AI网络需分离数据流。
标准化架构。一般来说，人工智能网络由后端基础设施（训练）和前端（推理）组成。后端负责开发和训练模型，前端向客户提供结果。运营商可以通过基于以太网的通用性获得优势，包括允许后端和前端集群之间的技术重用等等。

当前，基于标准的、模块化的技术，特别是以太网，正吸引着越来越多企业的目光。以云数据中心为例，经济高效的以太网服务器和基于标准的scale up系统等组件已经推动了市场的蓬勃发展。Arista Networks的首席执行官Jayshree Ullal曾撰文讨论这些趋势，提及了“人工智能孤岛”现象，即前端与后端架构的差异问题。从另一个角度来看，孤岛现象将训练、推理和边缘市场的网络架构分隔开来，不利于整体的发展。

企业并不希望看到这种局面，因为不同架构意味着不同的堆栈或组件，这将阻碍标准化进程并影响经济性。为了推动大众市场的形成，价格应当呈现下降趋势而非上涨。鉴于InfiniBand主要由单一供应商主导，无法享受开放式以太网生态系统所带来的市场竞争定价优势，开放式以太网能够提供更加出色的规模经济效应。

Arista提倡构建一个“人工智能中心”，旨在满足前端与后端系统在兼容性方面的需求。在这一框架下，GPU通过无损网络进行高效训练。这些经过训练的AI模型会与AI推理集群相连，使得最终用户能够便捷地查询这些模型。为了避免冗余，开发两个相互独立的技术架构来分别支持训练与推理环节并无实际意义。相反，这些系统应当实现兼容性和模块化，而基于行业标准的以太网则是实现这一目标的最经济途径。

当前的以太网网络解决方案虽已展现出良好的扩展性，但要真正满足人工智能应用对更高速度和更强可扩展性的需求，底层的以太网技术仍需进一步简化和优化设计，以提升作业效率。为此，行业内的工程师们正积极投身于针对AI用例的以太网优化工作。在这一背景下，超以太网联盟（UEC）应运而生，它汇聚了众多行业公司，共同致力于通过基于标准的改进来推动以太网的发展。其中，超以太网传输作为一项现代传输协议，旨在充分利用以太网/IP生态系统的优势，为人工智能应用程序提供卓越的性能。

目前，UEC的成员队伍已扩大至60余家公司（且仍在不断壮大），涵盖了众多在人工智能和高性能计算网络领域具有领先地位的供应商及运营商，如AMD、思科、戴尔、HPE、英特尔、英伟达以及高通等。尤为值得一提的是，英伟达作为人工智能基础设施领域的佼佼者，已经拥有成熟的InfiniBand解决方案，但仍选择加入UEC，这进一步彰显了UEC联盟在推动人工智能网络标准化方面的主导地位。

以太网技术进步如何引领人工智能

在推进人工智能的部署过程中，消除人工智能孤岛对于缩减成本和降低风险至关重要。其中，采用基于标准的以太网作为支撑技术是一个核心要素。以太网展现出强大的潜力，能够应对人工智能的高要求，并提供一个统一的平台，这对人工智能的经济性具有重要影响，因为它能够在各种网络和云端上实现一致的运营模式。对于大多数运营场景而言，维护InfiniBand和以太网双重基础设施的成本过于为高昂。因此，直接转向以太网成为了一个不错的选择，以太网通过不断创新，能够以更低的成本提供与InfiniBand相媲美的AI性能。具体的技术进步体现在以下几个方面：

数据包喷洒：在20世纪90年代，网络拓扑主要基于生成树协议，确保从A到B的单一路径以避免网络环路，然后出现了像ECMP这样的多路径技术，让网络尽可能地多利用通信之间的链路。如今，人工智能网络拓扑迈入了数据包喷洒的新阶段，该技术允许每个网络流同时访问到达目的地的所有路径。数据包的灵活排序充分利用了所有具备最佳负载平衡的以太网链路，仅在AI工作负载涉及带宽密集型操作需要它时才进行强制排序。

拥塞管理：在高性能网络中，网络拥塞问题不容忽视。当多个发送方同时向AI接收器发送流量时，AI接收器的最后一条链路上可能会出现“incast”拥塞问题。在GPU集群执行“all-to-all”AI任务时，这一问题可能变得尤为严重并呈指数级增长。因此，基于以太网的拥塞控制算法对于人工智能工作负载至关重要，它们能够避免热点现象，并在多条路径上均匀分布负载。这些算法可以与多路径数据包喷洒技术协同工作，确保AI流量的可靠传输。

随着人工智能市场的蓬勃发展，企业正积极评估新的人工智能用例对网络架构的影响，并探索部署新服务的成本及投资回报率。据Futuriom预测，未来几年内，人工智能的用例和部署模型将持续扩展，涵盖超大规模LLM、SLM、私有人工智能及边缘推理等领域。这些用例均支持以太网连接，从边缘到数据中心，以太网已在企业网络中广泛应用。

以太网凭借其开放性、灵活性和适应性强等特点，在人工智能部署中展现出强大竞争力。其性能优于InfiniBand，且随着UEC的增强，优势将进一步扩大。同时，以太网成本更低，生态系统更广泛且更开放，为后端和前端集群提供了通用性、统一的操作和技能集，以及集群之间的平台重用机会。随着人工智能用例和服务的不断扩展，以太网基础设施的机会也将大幅增加。无论是在超大规模LLM的核心还是在企业边缘，AI-ready以太网都能满足需求，提供基于行业特定私有数据的AI推理。

原文链接：

https://www.futuriom.com/articles/news/the-secret-behind-aristas-ethernet-succces/2024/12

end