SmartNIC及其在HPC中的功能浅析-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

随着高速数据处理需求持续呈指数级增长，主处理器已不堪重负，严重制约系统性能的提升。此背景下，SmartNIC技术应运而生。通过卸载网络相关任务，SmartNIC为其他关键型操作释放了宝贵的处理能力，从而增强了网络性能、减少了延迟，提高了整体系统效率，为AI训练和云计算领域的重大进步铺平了道路。

在不到五年的时间里，最先进的AI模型规模经历了5000多倍的扩张。很大程度上，这些AI模型依赖基于复杂计算和大量内存的高性能深度神经网络(DNN)。对于拥有海量数据的这类大规模DNN的训练，只能依赖由CPU、GPU或专用芯片等构成的大型计算节点集群才能完成。

智能网络接口卡——SmartNIC，如今已成为现代网络基础设施中的一个关键组件，专门用于增强网络性能、减少延迟和提高整体系统效率。它可以从主CPU中卸载与网络相关的任务，从而为其他关键型操作释放宝贵的处理能力。

在高性能计算(HPC)领域，SmartNIC获得了巨大的吸引力。为了实现最高性能，HPC环境需要高处理能力、高效的数据移动和高速互连。通过提供高级网络功能和专用硬件加速，SmartNIC在HPC应用中表现优异。

提高AI系统效率

当前的各类机器学习发展趋势中，都包含分布式学习，而这类学习通常都采用并行数据训练，每个节点在不同的数据子集上训练模型。基于这些节点训练获得的权重梯度被定期组合，并用于模型权重的更新。

对于在分布式系统上有效扩展AI训练而言，主要目标是在处理计算密集型张量运算时，对计算节点的利用最优化。最新研究出来的一个有潜力的解决方案是，将所有计算节点的all-reduced操作都转移到专门为AI设计的专用NIC上。该类NIC采用FPGA来实现，进而使CPU和NPU能够专注于深度学习和AI计算所必需的张量运算型任务。这样，通过把网络相关的任务交给SmartNIC来处理，可提高整个系统的效率。

随着SmartNIC技术的不断发展，各个行业参与者都积极提出了许多先进的解决方案，以满足云和企业架构不断发展的需求。这些解决方案旨在将网络和安全加速功能汇聚到一个平台中，提高系统的性能和效率。AMD的Alveo U25N就是一个这样的例子。它是一个25GbE SmartNIC平台，专为构建现代数据中心云和企业架构所设计，具有超高吞吐率、小数据包性能、低延迟及可编程网络结构。

除了减轻处理器的负担外，SmartNIC FPGA还可定制，且易于编程。这种灵活性可赋能开发人员根据AI和深度学习工作负载的具体需求，对其功能进行定制。

用于AI的SmartNIC

深度神经网络的指导训练涉及以下几个步骤：

第一步，称为前向传递，DNN对用于以mini-batch输入的输出进行预测，并计算出与ground truth label之间的误差。

接下来，在反向过程中，该误差被传播通过所有层，来计算权重梯度(计算出的信息)。

最后，利用梯度和优化规则来更新权重，将预测误差最小化。对多个mini-batch(一个epoch)重复此过程，直到精度收敛。

图1：具有四个worker的流水线型ring all-reduce。(来源：《IEEE Computer Architecture L.》)

为了有效训练大型DNN，采用了分布式训练系统。这些系统采用多个worker，这些worker可以是CPU、GPU或专用加速器。这里，选择的解决方案是数据并行化。每个worker采用不同的mini-batch训练模型，并对学到的信息(即实施一次all-reduce操作后的权重梯度)进行定期交换。

Reduction操作可以相互结合和交换，例如求和、最小值或最大值。all-reduce算子是许多并行算法的基本构建块，如分布式排序、矩阵乘法和机器学习。

All Reduce算法广泛应用于并行计算中，将来自多个进程或worker的数据合并到一个统一的阵列中。Worker指的是负责执行SmartNIC架构内特定任务或操作的计算组件或实体，包括CPU核、GPU或专门用于处理网络、卸载和加速功能的其他处理单元。

AI SmartNIC系统架构

图2：(a)系统概述和AI智能NIC架构(b)用于L层MLP训练的执行跟踪示例。(来源：《IEEE Computer Architecture L.》)

图2所示为一个配备有AI SmartNIC的系统，其中每个worker通过PCIe连接到FPGA，而所有FPGA都通过网络交换机互连。将FPGA以环形拓扑结构安置在以太网层级的顶层。

FPGA从本地worker读取权重梯度，并将其存储在输入FIFO中。同时，通过以太网接收来自前一节点的reduction操作结果，并在Rx FIFO中进行缓冲。一旦两个FIFO都准备好了，它们的内容就会出列，并采用FP32加法器实施reduce操作。然后，通过Tx FIFO将结果发送到环中的下一个节点，或者是将该结果作为最终的all-reduce结果，通过一个输出FIFO写回本地worker存储器。

以GPU为中心的SmartNIC

FPGA网络接口卡(FpgaNIC)，旨在将GPU的角色从worker转变为网络数据处理的主处理器。在传统的网络架构中，GPU通常充当worker，而CPU承担主处理器角色。但实际上，消耗网络流量最多的却是GPU，所以这是不合理的。FpgaNIC重新将GPU作为主处理器，从而为围绕SmartNIC的设计方案带来了灵活性。该SmartNIC的一个关键功能是能够采用GPU虚拟地址，实现与本地GPU的高效直接通信。通过采用GPU虚拟地址，SmartNIC可以绕过不必要的数据传输，实现与GPU之间的更快、更精简通信。通过这类直接通信，增强了整个系统的性能，并减少了延迟。

图3：试验型配置。(来源：2022 USENIX年会论文)

该SmartNIC采用FPGA，通过PCIe实现SmartNIC和本地GPU之间的直接P2P通信。FpgaNIC的另一个特点是，它可提供100Gb的硬件网络传输能力。这意味着它可以与远程GPU建立高速网络通信，实现跨分布式系统的高效数据传输和协作。SmartNIC充当本地GPU和远程GPU之间的桥梁，简化其间的无缝快速通信。

近年来，行业中已利用SmartNIC相关的最新研发成果，实现了许多设计，其中之一就是专为高频交易业务而开发的SmartNIC平台，该平台由Orthogone和Napatech合作开发，利用FPGA来实现。

通过这一战略合作，将Orthogone的超低延迟(ULL)FPGA IP核及FPGA开发环境与Napatech的可编程SmartNIC相结合，以提供高效的性能和超低延迟的事务数据处理。该合作旨在满足金融科技企业(如贸易公司和投资银行等)的苛刻要求，可提供灵活集成、交钥匙部署选项和硬件的升级适应性。

Achronix半导体最近宣布，其(ANIC)现在已包含400千兆以太网(GbE)连接及PCIe Gen 5.0网络性能。ANIC IP支持400GbE，实现了超快的数据传输速率，支持海量数据的实时处理。这种加速的网络吞吐量，最大限度地提高了应用性能，并显著降低了延迟。采用模块化结构，每个优化的IP块都经过了闭环timing to speed预验证，支持用户根据应用选择所需的SmartNIC组件，以加快设计速度。再加上在IP设计中可动态更改模块功能的部分可重配置能力，从而在现场就可对解决方案进行无缝修改。

随着对高速数据处理的需求持续呈指数级增长，SmartNIC技术已为AI训练和云计算领域中的组网和数据处理取得重大进展铺平了道路。已经证明，这些专用网络接口卡有助于克服现代计算的挑战，实现高效的数据卸载、关键型任务的加速以及与现有基础设施的无缝集成。随着持续的研发，可以期待SmartNIC技术的进一步创新，进而释放新的可能性，推动网络和数据驱动型应用的下一波进步。

(参考原文：an-introduction-to-smartnics-and-their-role-in-hpc ）

责编：Jimmy.zhang

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

数据中心/服务器人工智能处理器/DSP

您可能感兴趣

荣耀"阿尔法计划"，三阶段构建AI生态金字塔

荣耀新任CEO李健首次公开亮相即宣布投入100亿美元布局AI终端生态，并推动Magic系列提供7年系统更新......

DeepSeek 揭秘推理系统，成本与利润率首度曝光

假设 GPU 租赁成本为 2 美元 / 小时，经计算，DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入，理论上一天的总收入可达……

IBM中国投资公司正式关停：研发职能全面撤离，1800人受波及

此次关停并非孤立事件。近年来随着 IBM 自身业务发展放缓与在中国业务的大幅缩减，IBM 在华研发团队不断萎缩，陆续被裁撤。

至强6再度上新！英特尔加速拓展AI版图

至强6处理器产品家族极为丰富，涵盖了多种型号，能够满足不同场景的多样化需求。新推出的6700P和6500P系列聚焦主流数据中心应用，适用于传统企业、云计算、边缘计算、存储等多种场景。

微软呼吁美国政府放宽“Tier 2国家”芯片出口管制，平衡安全与商业利益

微软还强调，拜登政府的《人工智能扩散出口管制框架》限制了美国向许多快速增长且具有战略意义的市场出口关键AI组件，破坏了特朗普政府的两项优先事项：加强美国的AI领导地位以及减少美国近万亿美元的贸易逆差。

紧追微软、谷歌，AWS推出其首款量子计算芯片Ocelot

Ocelot是AWS与加州理工学院合作开发的，集成了两个堆叠在一起的小型硅微芯片。 AWS表示，该芯片的设计可将与纠错相关的成本降低多达90%。

赤池昌二先生升任TEL集团副总裁兼中国区总裁

TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。

2025年无线连接的七大趋势

预计在2025年，以下七大关键趋势将塑造物联网的格局。

4月必逛电子展！六大热门新赛道，来NEPCON China 2025一展全看

领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！

ASML公布2025年度股东大会议程，并提名Karien van Gennip为新任监事会委员

本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

披露金额超1.5亿元-2月AGV/AMR领域中标项目一览

千万级中标项目5个，百万级中标项目12个。文｜新战略根据公开信息，新战略移动机器人产业研究所不完全统计，2025年2月，国内发布35项中标公告，披露总金额超15527.01万元。（由新战略移动机器人全

近1GWh！26个工商业储能项目纳入建设计划

插播：历时数月深度调研，9大系统性章节、超百组核心数据，行家说储能联合天合光能参编，发布工商业储能产业首份调研级报告，为行业提供从战略决策到产品方向、项目资源的全维参考！点击下方“阅读原文”订阅又一地

3月6日，LED显示屏“半壁江山”齐聚深圳

倒计时1天，『2025年行家说开年盛会（第8届）取势行远·LED显示屏及MLED产业链2025年蓝图峰会』明天正式启幕。本届开年盛会特设「2025年产品/技术/市场蓝图计划」、「COB」、「MiP及玻

【光电集成】半导体入门：纳米技术和纳米制造

今日光电有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光引未来...欢迎来到今日光电！----追光逐电光引未来----图1 采用自上而下方法实

爱发科：SiC行业变局中的“共谋者”，技术纵深助力市场破局

回顾2024年，碳化硅和氮化镓行业在多个领域取得了显著进步，并经历了重要的变化。展望2025年，行业也将面临新的机遇和挑战。为了更好地解读产业格局，探索未来的前进方向，行家说三代半与行家极光奖联合策划

报名入口|第十四届制造业产线物流与仓储智能化大会

点击文末“阅读原文”链接即可报名参会！往期精选《2024年度中国移动机器人产业发展研究报告》即将发布！2024年，36家移动机器人企业融了超60亿元2024移动机器人市场：新玩家批量入场，搅局还是破局

迈为股份：MLED整线方案最新披露

‍‍近几年，随着Mini/Micro LED技术的高速发展，LED产业呈现几大发展趋势，如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成，以及RGB 封装与COB 降本需求迫

瑞淀：3月11日，新型显示等最新方案展示

2025年3月11-13日，亚洲激光、光学、光电行业年度盛会的慕尼黑上海光博会将在上海新国际博览中心-3号入口厅N1-N5,E7-E4馆盛大召开。本次瑞淀光学展示方案有：■ MicroOLED/Min

6nm！5G芯片出货全球76个国家，国产手机芯片又一个里程碑！

如果说华为代表了国产手机芯片的最高水平，那么紫光展锐无疑就是国产中低端芯片最大的依持了。3月3日，巴塞罗那MWC世界移动通信大会上，紫光展锐正式发布手机芯片T8300。据了解，T8300采用的是6nm

全球首个！人形机器人半程马拉松，下月北京开跑！

在3月4日北京市政府新闻办公室举行的发布会上，北京经济技术开发区（北京亦庄）发布消息称，将于4月13日举行北京亦庄半程马拉松赛，全球首个人形机器人半程马拉松赛将同期举行。会上表示，人形机器人将与运动员

文章评论

最新
热门

换一换

EE直播

更多>

SmartNIC及其在HPC中的功能浅析

提高AI系统效率

用于AI的SmartNIC

AI SmartNIC系统架构

以GPU为中心的SmartNIC

杂志声明