DPU技术架构实现及对比

智能计算芯世界 2022-10-03 07:04

本文参考自“未来网络:SmartNIC DPU技术白皮书”DPU是以数据为中心 IO密集的专用处理器。DPU对现有的SmartNIC 做了整合,能看到很多以往 SmartNIC 的影子,但明显高于之前任何一个 SmartNIC 的定位。DPU可以实现多种功能。以 Nvidia BlueField 架构为例,其功能模块如下图。



(1)接口与驱动

对于每个 BlueField DPU 网络端口,都开放了 2 个物理 PCIe 网络功能:一个供嵌入式 Arm 子系统使用,一个供 PCIe 上的 Host 使用。mlx5 驱动程序及其相应的软件堆栈必须加载到两台主机(Arm和 Host 服务器)上。每台主机上运行的操作系统都会探测驱动程序。


(2)工作模式

DPU 模式或嵌入式功能(ECPF)所有权,其中嵌入式 Arm 系统控制 NIC 资源和数据路径(默认)。受限模式是 ECPF 所有权的扩展,对主机端有额外限制。NIC 模式是从外部主机的角度来看,DPU 的行为与适配卡完全一样。分离模式将网络功能分配给 Arm 内核和 x86主机内核。


(3)内核表示模型

BlueField DPU 使用 netdev 表示器来映射每个主机端物理和虚拟功能:作为隧道将运行在 Arm 内核上的虚拟交换机或应用程序的流量传递到 Arm 侧的相关 PF 或 VF;作为通道将嵌入式交换机配置为相应的代表功能的规则。这些表示器用作连接到 OVS 或在 Arm 内核上运行的任何其他虚拟交换机的虚拟端口。


(4)多主机

在多主机模式下,每个主机接口最多可划分为 4 个独立的 PCIe接口。所有接口将共享同一个物理端口,并由同一个多物理功能交换机(multi-physical function switch,MPFS)管理。每个主机都有自己的电子交换机(e-switch)并控制自己的流量。


(5)Virtual Switch on DPU 

NVIDIA BlueField 支持 ASAP技术。它利用了上面提到的表示器。BlueField SW package 包括已经支持 ASAP2的 OVS 安装。在 Arm内核上运行的虚拟交换机允许通过 Arm 内核传递进出主机功能的所有流量,同时执行 OVS 支持的所有操作。ASAP2允许通过对 NIC 嵌入式交换机进行编程来卸载数据路径,并避免需要通过 Arm 内核传递每个数据包。控制平面与使用标准 OVS 保持相同。


(6)Virtual Switch on DPU

网络绑定可以将两个或多个网络接口组合成一个接口。如果其中一个接口发生故障,它会增加网络吞吐量、带宽并提供冗余。BlueField DPU 可以选择以对主机透明的方式在 Arm 端配置网络绑定。在这种配置下,主机只能看到一个 PF。


(7)配置上行 MTU

要在 SmartNIC 模式下运行时配置端口 MTU,需要限制 BlueField DPU 的 host。一旦 host 受到限制,端口 MTU 可以通过更改上行链路表示器(p0 或 p1)的 MTU 进行配置。


(8)链路聚合

网络绑定可以将两个或多个网络接口组合成一个接口。如果其中一个接口发生故障,它会增加网络吞吐量、带宽并提供冗余。BlueField DPU 可以选择以对主机透明的方式在 Arm 端配置网络绑定。在这种配置下,主机只能看到一个 PF。


(9)可扩展功能(scalable function,SF)

SF 是一种轻量级功能,具有部署它的父 PCIe 功能。一个 mlx5 SF 有自己的功能能力和自己的资源。这意味着 SF 有自己的专用队列(txq、rxq、cq、eq),这些队列既不共享也不从父 PCIe 功能中抢占。使用 SF 不需要系统 BIOS 的特殊支持。SF 与 PCIe SR-IOV 虚拟功能共存。SF 不需要启用 PCIe SR-IOV。


(10)主机和 Arm 系统上的 RDMA 堆栈支持

Arm Linux 系统上预装了完整的 RDMA 堆栈。BlueField DPU 在Separate Host Mode 和 Embedded CPU Mode 中支持 RDMA(RoCE 或InfiniBand)。


(11)控制 host PF 和 VF 参数

1)设置 hostPF 和 VF 默 MAC 地址,从 Arm 中,用户可以配置主机中物理功能的 MAC 地址。发送命令后,用户必须在主机中重新加载 NVIDIA 驱动才能看到新配置的 MAC 地址。系统重启后 MAC地址恢复到 FW 中的默认值;
2)设置主机 PF 和 VF 链路状态,Port状态可以配置为 Up、Down 或 Follow。
3)查询配置,PF 和 VF 的配置可以通过一定指令查询。
4)禁用主机网络 PF,对于只对使用存储或 VirtIO 功能感兴趣的用户,可以不向主机公开 ConnectX 网络功能。启用此功能后,将不会在 Arm 上看到主机 PF 表示器。如果主机上没有 PF,则无法启用 SR-IOV,因此在 Arm 上也不会看到 VF 表示器。如果主机上没有 PF,就不能在主机使用 SF。Arm 上的 SF 功能不受影响。


(12)BlueField DPU 支持 DPDK

DPDK 是一组快速处理数据包的开发平台及接口(Data Plane Development Kit,DPDK)。BlueField DPU 支持 DPDK 以使用其提供的开发平台和接口。


(13)BlueField DPU 上的 SNAP

NVIDIA BlueField SNAP(软件定义网络加速处理)技术支持NVMe 存储的硬件加速虚拟化。BlueField SNAP 将网络存储呈现为本地 NVMe SSD,模拟 PCIe 总线上的 NVMe 驱动器。主机OS/Hypervisor 使用其标准 NVMe 驱动程序不知道通信终止,不是由物理驱动器,而是由 BlueField SNAP。任何逻辑都可以通过 BlueField SNAP 框架应用于数据,并通过以太网或 InfiniBand 协议通过网络传输到存储目标。BlueField SNAP 将独特的硬件加速存储虚拟化与 DPU的高级网络和可编程能力相结合。BlueField SNAP 与 DPU 一起实现了解决存储和网络效率和性能的应用世界。


(14)正则表达式加速

BlueField-2 DPU 支持高速 RegEx 加速。这允许主机将多个RegEx 作业卸载到 DPU。此功能可从主机或 Arm 端使用。使用此功能的应用程序通常会将已编译的规则集加载到 BlueField RegEx 引擎并发送作业进行处理。对于每个作业,RegEx 引擎将返回一个匹配列表(例如匹配规则、偏移量、长度)。用于加载规则和发送 RegEx 作业的示例和标准 API 可通过 DPDK 获得。


(15)压缩加速(Compression Acceleration)

NVIDIA BlueField DPU 支持高速压缩加速。此功能允许主机将多个压缩/解压缩作业卸载到 DPU。压缩类操作与 net、vDPA 和 RegEx类操作并行支持。


(16)公钥加速

NVIDIA BlueField DPU 集成了多个公钥加速(PKA)引擎来卸载Arm 主机的处理器,提供 PK 算法的高性能计算。BlueField 的 PKA可用于广泛的安全应用。它可以协助 SSL 加速,或安全的高性能 PK签名生成器/检查器和证书相关操作。


(17)IPsec 功能

BlueField DPU 可以透明地从主机 CPU 卸载 IPsec 操作。这意味着主机不需要知道网络流量在接入线路之前是加密的,或者在离开线路之后是解密的。IPsec 操作可以在 DPU 的软件(Arm 内核或加速器块中)中运行。


(18)QoS 配置

BlueField DPU 支持限速 Host PF 和 VF、限速 SF、限速 VF 组来实现配置 QoS 组、SF QoS、VF QoS 和 PF QoS。


(19)VirtIO-net 模拟设备(Emulated Devices)

此功能使用户能够在连接了 BlueField-2 DPU 的系统中创建VirtIO-net 模拟 PCIe 设备。这是由 DPU 中的 virtio-net-controller 软件模块完成的。Virtio-net 模拟设备允许用户在插入 DPU 的主机系统中热插拔多达 16 个 virtio-net PCIe PF 以太网 NIC 设备或 504 个 virtio-net PCIe VF 以太网 NIC 设备。


(20)深度报文检测

深度包检测(Deep packet inspection,DPI)是一种在数据包通过受监控的网络检查点时检查其全部内容的方法。DPI 是用于 NVIDIA BlueField-2 DPU 的 DOCA SDK 软件解决方案的一部分。DPI 提供了一种更强大的机制来执行网络数据包过滤,因为它可用于识别和阻止隐藏在网络数据流中的一系列复杂威胁,例如,恶意应用程序,恶意软件数据泄露尝试,内容政策违规,应用识别和负载均衡。


(21)共享 RQ 模式

在创建 1 个发送队列(SQ)和 1 个接收队列(RQ)时,每个表示器每个通道消耗约 3MB 内存。将其缩放到所需的 1024 个表示器(SF 和/或 VF)将需要约 3GB 的单通道内存。3MB 的主要部分是由RQ 分配(接收缓冲区和 SKB)贡献的。因此,为了有效利用内存,实现了共享 RQ 模式,以便 PF/VF/SF 表示器共享上行链路表示器拥有的接收队列。


本文参考自“未来网络:SmartNIC DPU技术白皮书”,介绍 SmartNIC/DPU 的特征和需求、硬件和编程架构、技术和产业发展趋势,提供应用场景和应用案例,介绍相关公司及产品、以及 SmartNIC/DPU 的测试技术,同时提出发展建议,以期促进SmartNIC/DPU 相关产业发展。


下载链接:
未来网络:SmartNIC DPU技术白皮书
开源芯片:处理器芯片发展新趋势
中国云计算生态蓝皮书(2022)
处理器芯片发展新趋势:开源芯片
SCM技术及趋势合集
NVM技术及趋势合集

算力网络技术白皮书(2022)

中国机器人产业发展报告(2022年)

《Hot Chips 33:光子处理器合集》

《Hot Chips 33:加速器合集》

《Hot Chips 33:高性能、低功耗处理器/控制器》

《Hot Chips 33:神经网络处理器(合集)》

《硅片国产化进程》


来源:网络通信与安全紫金山实验室等


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



电子书<服务器基础知识全解(终极版)>更新完毕。

获取方式:点击“阅读原文”即可查看182页 PPT可编辑版本和PDF阅读版本详情。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 141浏览
  • 故障现象 一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断接车后试车,发动机怠速轻微抖动,发动机故障灯长亮。用故障检测仪检测,发现发动机控制单元(NCM)中存储有故障代码“P0300 多缸失火”“P0309 气缸9失火”“P0307 气缸7失火”,初步判断发动机存在失火故障。考虑到该车使用年数较长,决定先使用虹科Pico汽车示波器进行相对压缩测试,以
    虹科Pico汽车示波器 2025-01-15 17:30 95浏览
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 169浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 213浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 103浏览
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 172浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 148浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 115浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 124浏览
  • 晶台光耦KL817和KL3053在小家电产品(如微波炉等)辅助电源中的广泛应用。具备小功率、高性能、高度集成以及低待机功耗的特点,同时支持宽输入电压范围。▲光耦在实物应用中的产品图其一次侧集成了交流电压过零检测与信号输出功能,该功能产生的过零信号可用于精确控制继电器、可控硅等器件的过零开关动作,从而有效减小开关应力,显著提升器件的使用寿命。通过高度的集成化和先进的控制技术,该电源大幅减少了所需的外围器件数量,不仅降低了系统成本和体积,还进一步增强了整体的可靠性。▲电路示意图该电路的过零检测信号由
    晶台光耦 2025-01-16 10:12 95浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,与汽车技术领先者法雷奥合作,采用创新的开放系统协议(OSP)技术,旨在改变汽车内饰照明方式,革新汽车行业座舱照明理念。结合艾迈斯欧司朗开创性的OSIRE® E3731i智能LED和法雷奥的动态环境照明系统,两家公司将为车辆内饰设计和功能设立一套全新标准。汽车内饰照明的作用日益凸显,座舱设计的主流趋势应满足终端用户的需求:即易于使用、个性化,并能提供符合用户生活方式的清晰信息。因此,动态环境照明带来了众多新机遇。智能LED的应用已
    艾迈斯欧司朗 2025-01-15 19:00 78浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 156浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦