详谈DPU技术挑战和发展建议

传感器技术 2022-11-12 07:00

DPU 作为一种软硬协同的虚拟化架构,相较仅做网络加速的智能网卡而言,一方面需要考虑与 CPU 中运行的虚拟化软件栈对接,另一方面由于 DPU 硬件的特殊设计导致卡与服务器存在更多的适配对接需求,因此 DPU 产业发展与软硬件市场的配合度存在强关联。能否理解行业需求,拉通软硬件形成完整解决方案成为 DPU 发展与落地的关键。

当前 DPU 解决方案百花齐放,在下表总结的业界主流 DPU 方案中,由于硬件路线选择不同,DPU 卡的硬件设计存在较大差异,同时,各厂家均开始布局自有配套软件生态,并呈现出各自为营的态势。
纵观处理器芯片几十年的发展历程,定制产品总是逐渐走向硬件形态的标准化和软件生态的通用化,最终形成专用与通用并存的格局。DPU 作为继 CPU、GPU 之后的第三颗数据中心核心处理器,基于自身虚拟化需求定制软硬耦合DPU 产品固然能够最大化发挥 DPU 产品优势,但是随着更多的数据中心提出DPU 需求,这种方式的技术门槛和引入成本过高,难以复制。而商业 DPU 产品由于各自发展软件栈生态,也导致软件与 DPU 适配对接的成本较高。同时,DPU与服务器整机的生态也不可忽视。
从物理关系上看,DPU 是挂载在服务器主 CPU下的 PCIe 子设备,但从顶层云管逻辑来看,DPU 是服务器的管理员,是提供数据加速、存储加速、安全管控及云管的云底座。因此,不同于传统网卡、HBA 卡、GPU 等标准 PCIe 设备,主从关系的倒换使得 DPU 对传统服务器硬件设计提出了特殊要求,主要体现在硬件供电、散热适配、带外管理、整机开关机及异常处理策略等方面。
市场需求决定了 DPU 的软硬件设计,而软硬件的开发、适配需要高昂的人力、财力成本投入,当前专用化的 DPU 路径不利于生态的发展,在百花齐放的行业现状下更需要考虑通用性和标准化,拉通需求方、虚拟化软件厂商、DPU 厂商与服务器厂商,形成端到端的闭环生态体系。
随着需求越来越广泛,技术的演进对 DPU 的落地带来了诸多挑战,关键挑战即标准化程度对 DPU 技术易用性的影响。

01 软件系统标准化


与 CPU 和 GPU 这种先有硬件再有软件生态的发展背景不同,DPU 承载的虚拟化软件已经较为成熟,DPU 在此基础之上实现功能和性能的提升,因此对于业界云平台以及 DPU 厂商来说,DPU 能否规模部署取决于 DPU 配套软件是否“能用”且“好用”。

中国移动结合典型 DPU 应用场景需求,分析 DPU 软件部署方式,结合开源社区方案成熟情况,给出 DPU 云化技术架构管理、网络、存储、计算和安全五大系统软件标准化建议,并结合中国移动业务需求场景推动软件标准化阶段式发展和落地:
一、管理系统:引入 DPU 后,计算节点上的管理系统软件(OpenStack 等)安装位置从主机侧 CPU 调整到 DPU 的 ARM 或 x86 核上。管理系统软件主要实现虚拟硬件资源的逻辑管理功能,不使用 DPU 上的硬件加速引擎,因此理论上该部分软件与 DPU 天然解耦,DPU 需支持管理系统软件的编译、安装,可以通过 DPU OS 和 Host OS 互通或者融合的方式,实现传统云平台管理软件在 DPU上的无缝迁移部署和无感卸载,降低适配开发成本。
虚拟化场景下,Libvirt 作为虚拟机管理组件也安装在 DPU 上,OS 资源视图发生变化,因此需要在主机侧CPU 运行轻量化代理完成主机资源和虚拟机管理。此时需要保证 Libvirt 管理面接口和原生 Libvirt 接口保持一致,同时支持接口的扩展。裸金属场景下,可采用 Ironic 组件或增强 Nova 组件完成裸金属管理,DPU 厂商可以提供标准 Ironic Driver 集成到云管理软件中或适配标准 Nova 管理流程,实现裸金属生命周期的管理功能。
二、网络系统:虚拟交换网络 vSwitch 控制面运行在 DPU 的 CPU 核上,与SDN 控制器对接,生成流表规则并通过 DPDK 标准 rte_flow 完成流表向转发面的下发,且需完成 bond 模式、mtu 值等数据通道参数的配置;转发面运行在 DPU的硬件加速引擎上,负责流表匹配逻辑的硬件实现,并为虚拟机、容器或裸金属提供标准的 virtio 硬件后端。结合中国移动现网需求,提出以下标准化要求:
  • 采用 DPDK 标准 rte_flow 接口完成流表从控制面到转发面的下发。同时考虑 NFV 业务网络拓扑需求,尤其在与终端用户或基站通信时容易产生大规模流表瓶颈,影响转发性能,因此需定制流表收敛方案,规避大流表场景问题,同时降低业务倒换场景下流表下发通道阻塞的风险;

  • 增强运维灵活性,业务网络平面数据全部在硬件加速引擎完成接收与发送,因此需要在数据在硬件加速引擎的生命周期流程中增加入口与出口的运维统计能力,便于故障分析定位,保证端到端可靠性;

  • 网络接口采用用户态 vDPA 框架,在 DPU 上实现 virtio 后端,同一站点资源池内需统一要求 virtio 支持的 feature,以实现在部署不同厂商 DPU的计算节点之间的虚拟机热迁移功能,保证云主机弹性特点。
RDMA 是超低时延网络的关键技术,但是由于传统 Socket 编程模型和RDMA Verbs 编程模型差距显著,导致传统应用迁移到 RDMA 网络环境下需要进行大量代码改造,进而给业务带来不确定性风险或者可靠性风险,因此使用RDMA Socket 适配层屏蔽底层 RDMA 原语,向上对接 Socket 接口成为必然趋势,通过标准化的适配层,可以实现传统 Socket 应用无缝迁移到 RDMA 网络环境,在不改变业务代码的情况下,提高业务的响应时间和吞吐量。
三、存储系统:包含存储接口和存储网络协议两部分。基于开源 SPDK 框架提供存储卸载服务,利用 SPDK 的 JSON-RPC 配置接口,为虚拟机、裸机、容器提供一致的 virtio-blk/NVMe 虚拟块设备后端,基于 bdev 层抽象虚拟磁盘并提供QoS、加密、压缩、DIF、EC、RAID 等高级特性。存储网络协议方面,iSCSI 协议运行在 DPU 上的 CPU 核上,需要支持标准 iSCSI-Initiator 的编译和安装;NVMe-oF 由 DPU 硬件加速引擎实现,需要实现 RoCEv2 等高性能 Fabric 网络。
四、计算系统:主要为 Hypervisor 计算虚拟化系统的前后端分离,在计算节点需要对 Hypervisor 软件进行合理的剪裁和卸载。主机侧保留轻量化的Hypervisor 前端,KVM 完成 CPU 和内存的虚拟化管理,DPU 侧的 Hypervisor 后端配合 QEMU 完成虚拟机的初始化,并配合 Libvirt 完成虚拟机的生命周期管理。
Hypervisor 前后端对接应标准化,同时需要对操作系统内核进行深度剪裁和修改,业界尚无参考模型,需要共同探索。
五、安全系统:DPU 可以提供节点出入口硬件级的数据加解密功能,通过虚拟化方式实现的分布式防火墙、DDoS 防御设备等安全应用可以利用 DPU 硬件级的数据处理能力,提升安全应用处理性能。此外针对 HTTPS 等应用层的加解密处理,需要提供统一的 API 接口来完成业务层用户密钥证书的管理。
针对以上五大系统在 DPU 上的卸载,OpenStack、DPDK、SPDK 等云计算虚拟化相关的主流开源技术框架已经逐步实现在 DPU 环境下的部署与应用,当前在裸金属管理和虚拟交换网络卸载两类功能需求下已经有较为成熟的技术方案。中国移动软件标准化推进将分为两个阶段进行:
  • 第一阶段将聚焦于管理系统卸载、虚拟交换网络的卸载、iSCSI 存储网络协议栈卸载,主要解决核心网网络带宽升级导致的 CPU 处理瓶颈和满足弹性裸金属云化管理需求,利用开源技术方案,并增强平台端到端可靠性,制定技术方案,形成企业标准,实施现网试点验证;

  • 第二阶段将聚焦于 RDMA 技术及接口标准化、NVMe-oF 高性能存储网络协议卸载、Hypervisor 卸载、安全功能卸载等方面,满足 AI 训练场景低时延网络、大数据高性能存储读写、虚拟机“零”抖动、零信任安全等场景下更为极致的性能需求,这些领域在业界尚无规模性商用案例和成熟技术方案,需要共同探索和推进。

02 硬件系统标准化


当前 DPU 内除网络、存储卸载芯片外还会包含轻量级处理器芯片(或集成在其他芯片内的处理器内核)及带外管理芯片,该部件可看作在服务器整机内部的另一个小型服务器。在硬件标准化设计时,无论是对服务器自身还是承载的业务都应该遵循最小影响原则做通用增强,梳理绝对必要项,约束服务器整机能为DPU 提供的最大能力。

从服务器整机角度,需重点考虑机构设计、供电散热和边带信号等方面的标准化工作:
  • 机构设计:约束整机可支持卡的最大规格,避免异形卡及特殊机构件,减少机构适配工作量,减小应力可靠性风险;

  • 供电散热:在槽位供电及辅助供电方面,约束整机可支持卡在整机 S5 状态启动,满足裸金属场景云底座管理诉求,同时高度关注 DPU 因业务需要不断增长的最大功耗,谨慎讨论并确定功耗门限;在配套散热能力方面,约束整机支持 S5 状态卡散热及调速;

  • 边带信号:对于 PCIe 标准形态的 DPU 卡,在 PCIe 标准连接器定义基础上,约束整机能够提供给 DPU 的边带信号,落实信号类型、信号方向、电平、连接器选型、Pin 定义等细节,逐步引导行业做归一化设计。
从 DPU 角度,业务的多样性需求决定了当前硬件形态的多样化,行业内存在如 PCIe 卡、OCP 卡、自定义扣卡等多种形态,结合服务器整机的标准化方向,需要考虑以下方面:
  • 关注服务器整机标准所能提供的机构外框上限及功耗上限;

  • 避免主动散热器设计,并针对因高功耗引起的散热片材质升级进行必要的力学前置仿真及后续测试;

  • 预留必要的调试接口(通过线缆接入到 BMC 或者前挡板直出)。
由于 DPU 上存在 CPU 核,因此可以看作服务器整机的第二系统,这种架构的变化也导致服务器的带外管理方式产生了变化,从 DPU 与服务器整机带外管理交互角度,需要以下方面的标准化工作:
  1. DPU BMC(或其他带外管理模块)具备的最小管理功能

  2. 裸金属场景服务器及 DPU 的上下电、复位、固件升级、异常下电、故障处理时的开关机流程及软件处理策略;

  3. 云管业务对带外信息抓取方案,定义裸金属网卡 BMC 与主机 BMC 的核心职责,细化两者交互信息框架。
服务器整机硬件层面的标准化可让通用服务器与各厂家 DPU 具备适配前提,扫清新生态发展中的技术障碍。在这一过程中,需共同探讨 DPU 带外管理系统与服务器整机带外管理系统关系,明确 DPU BMC 应具备的核心功能,逐步收敛双 BMC 控制信息的交互框架,最终做到边界清晰。
同时,中国移动倡议各行业终端客户关注因引入裸金属服务引发的组网方式变革,立足自身业务特征探讨网络业务平面、存储平面、带内管理平面、带外 BMC 管理平面的处理方式,明确DPU 需提供的带内带外网口规格及数量,为 DPU 厂商提供产品路标。

来源:算力基建


本公众号高薪签约长期专栏作者,欢迎具备优秀写作能力的科技从业或爱好者,联系传感器小编YG18511751369(微信号)

期待下一篇10W+出自您的笔下!

 

免责声明:本文版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容!本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。 

  

 

为您发布产品,请点击“阅读原文”

 

传感器技术 制造业的未来是智能化,智能化的基础就是传感器; 互联网的方向是物联网,物联网的基石也是传感器; 关注传感器技术,获得技术资讯、产品应用、市场机会,掌握最黑科技,为中国工业导航。
评论
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 49浏览
  •         在有电流流过的导线周围会感生出磁场,再用霍尔器件检测由电流感生的磁场,即可测出产生这个磁场的电流的量值。由此就可以构成霍尔电流、电压传感器。因为霍尔器件的输出电压与加在它上面的磁感应强度以及流过其中的工作电流的乘积成比例,是一个具有乘法器功能的器件,并且可与各种逻辑电路直接接口,还可以直接驱动各种性质的负载。因为霍尔器件的应用原理简单,信号处理方便,器件本身又具有一系列的du特优点,所以在变频器中也发挥了非常重要的作用。  &nb
    锦正茂科技 2024-12-10 12:57 76浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 68浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 105浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 47浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 136浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 69浏览
  •         霍尔传感器是根据霍尔效应制作的一种磁场传感器。霍尔效应是磁电效应的一种,这一现象是霍尔(A.H.Hall,1855—1938)于1879年在研究金属的导电机构时发现的。后来发现半导体、导电流体等也有这种效应,而半导体的霍尔效应比金属强得多,利用这现象制成的各种霍尔元件,广泛地应用于工业自动化技术、检测技术及信息处理等方面。霍尔效应是研究半导体材料性能的基本方法。通过霍尔效应实验测定的霍尔系数,能够判断半导体材料的导电类型、载流子浓度及载流子
    锦正茂科技 2024-12-10 11:07 64浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 87浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 81浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 101浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 77浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 74浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦