RedHatOpenShift和NVIDIABlueFieldDPU加速云就绪基础设施与Kubernetes

英伟达NVIDIA中国 2022-05-13 19:20

IT 世界正在向云计算迁移,而云计算是构建在 Kubernetes 管理的容器上的。我们认为,下一个逻辑步骤就是使用数据处理器(DPU)来加速这一基础设施,以提高性能、效率和安全性。


Red Hat 与 NVIDIA 正在构建一个集成的云就绪基础设施解决方案, 该解决方案基于Red Hat OpenShift 的管理和自动化,并结合了 NVIDIA BlueField DPU 的加速、工作负载隔离和安全功能。


Red Hat OpenShift 的优势


许多流行的云计算基础设施项目使用 Kubernetes 管理的容器。然而,实施 Kubernetes 可能是一项艰巨的任务,尤其是对于那些无法投入专职人员成为 Kubernetes 专家的组织来说。


除了应用程序部署、更新和生命周期管理以外,Red Hat OpenShift 提供了一套强大的功能来管理 Kubernetes 容器。OpenShift 包括自动化和安全工具,以及一个云计算基础设施更经济、更可靠和更具扩展性的受支持开源模型。


根据 2021 年一项 Red Hat 调查, 超过 85% 的容器编排项目使用了 Kubernetes ,而 Red Hat OpenShift 是混合和多云 Kubernetes 部署的最受欢迎选择。OpenShift 是业界领先的企业级 Kubernetes 平台,被财富 500 强中超过 50% 的商业银行、电信公司和航空公司所使用。


显然,大多数企业都想要一个受支持的 Kubernetes 模型, Red Hat OpenShift 是最受欢迎的选择之一。


DPU 的工作原理


DPU 从服务器 CPU 卸载、加速和隔离基础设施工作负载。例如, BlueField DPU 可以从 CPU 卸载网络、网络虚拟化、数据加密和时间同步任务,并在专用芯片上运行它们。


其他基础设施软件,如远程管理、防火墙代理、网络控制平面和存储虚拟化,均可以在 BlueField 的 Arm 处理器内核上运行。这样做可以释放服务器的 CPU 内核,而这些内核可以运行应用程序和租户工作负载。


该功能还将基础设施和安全工作负载隔离在单独的域中。一组服务器能以更快的网络运行更多的应用程序,并提高了数据中心的效率和安全性。


在一个典型的云计算基础设施中,网络流量会在物理服务器间和在这些服务器上运行的容器间来回移动。这需要在每台服务器中都有一个数据包交换解决方案,为了获得最大的效率,应用程序容器也需要一种与 DPU 的加速网络卸载进行通信的方式。


传统的方法是通过 Kubernetes 和开放虚拟网络(OVN)来访问开放虚拟交换机(Open vSwitch 或 OVS)。OVN 提供网络抽象,默认部署策略是在主机服务器 CPU 上同时运行 OVN 和 OVS 。


然而,随着网络速度超过 10 Gbps ,这种方法会消耗大量 CPU 内核。Kubernetes 需要一个解决方案来在 DPU 上运行 OVN 和 OVS 功能,以便所有的数据包交换、报头重写、封装/解封装和数据包过滤都可以在网络硬件上完成,而不是在 CPU 上的软件中完成。


强化 Red Hat 和 NVIDIA 之间的网络集成


Red Hat 和 NVIDIA 合作将 OpenShift 的管理能力与 DPU 的加速能力相结合。


集成的第一阶段开始于 2018 年,Red Hat Enterprise Linux 将网络流量卸载到 NVIDIA ConnectX SmartNIC 。使用 OVS 或 DPDK 的网络数据平面在 SmartNIC ASIC 上运行,但网络控制平面仍完全在 X86 CPU 上的软件中运行。


图 1 . 运行在 Red Hat Enterprise Linux 上的 OpenStack SDN 控制器通过 OVS 将网络数据平面卸载到 NVIDIA ConnectX SmartNIC ,而控制平面在 X86 CPU 上运行。


2021 年,两家公司采取了下一步行动,将 Red Hat OpenShift 与 NVIDIA BlueField DPU 一起部署,并进行了性能基准测试。在 NVIDIA GTC 2021 上,我们展示了将网络转移到 DPU 的优势,并发表了一篇名为 “通过将网络功能卸载到 NVIDIA BlueField-2 DPU ,优化数据中心的服务器利用率” 的文章。


在此解决方案中,具有覆盖卸载(OVS 和 Geneve 卸载)的网络数据平面和网络控制平面(在 OVN Kubernetes Pod中)在具有 Red Hat Enterprise Linux 的 DPU 上运行。OpenShift 的主要组件,包括 Red Hat Enterprise Linux CoreOS ,仍保留在 x86 CPU 上。


图 2 . 运行在 Red Hat Enterprise Linux CoreOS 上的 Red Hat OpenShift 通过 OVN 和 OVS 将网络数据平面和控制平面卸载到 BlueField-2 DPU 。DPU 在其 Arm 内核上运行 Red Hat Enterprise Linux 。



在图 2 中的部署场景中,BlueField-2 在以下方面起着重要作用:


  • Geneve (虚拟覆盖网络)封装/解封装

  • IPsec 封装/解封装

  • 加密/解密路由

  • 网络地址转换(NAT)


主机 CPU 和容器只看到简单的未封装、未加密的数据包, CPU 不需要执行任何任务,因为它们已被卸载到 DPU 。这种卸载水平将 CPU 利用率降低了 70% ,释放了每台服务器上的大量 CPU 资源,以运行额外的业务/租户工作负载。


在 DPU 上运行 OpenShift


如 GTC 2022 上所述 , Red Hat 与 NVIDIA 已经采取了下一步行动,将包括 Red Hat Enterprise Linux CoreOS 在内的 OpenShift 迁移到 BlueField DPU 的 Arm 内核上运行,以实现 Red Hat OpenShift 双集群设计, 其中包括单独的租户和基础设施集群。


Red Hat Enterprise Linux CoreOS 是受支持的操作系统,用于 OpenShift 控制平面,或 Master 和 Worker 节点。这是 OpenShift 的一部分来执行调度、维护、升级和群集自动化。它包括容器管理工具和安全强化,使其更能抵御黑客攻击,现在它可以在主机 x86 CPU 和 DPU Arm 内核上运行。


BlueField DPU 在各种主机服务器上运行 OpenShift OVS 和 OVN 容器以及 Red Hat Enterprise Linux CoreOS ,形成了一个基础设施 Worker 集群。同时,在 x86 CPU 上运行的 OpenShift 管理租户 Pod 和集群。


将 OpenShift 基础设施群集软件卸载到 BlueField Arm 内核上而不是主机 x86 内核上运行,可以提供额外的 x86 CPU 节省、更高的性能和更强的安全隔离。



图 3 . 从 Red Hat OpenShift 4.10 开始,您可以在 x86 CPU 上运行 OpenShift 来管理租户,也可以在 BlueField DPU Arm 内核上运行 OpenShift 来管理集群基础设施。


云原生的软件定义网络是 BlueField DPU 用例的一个很好的例子,在 OpenShift 环境中,OVN 和 OVS 在 BlueField DPU 上运行并由其卸载。许多其他基础设施服务,如网络加密、防火墙代理、虚拟路由器、遥测代理等,也可以在 DPU 上运行,以获得更大的收益。


从 OpenShift 卸载到 DPU 带来的显著成本节约收益


为了了解 DPU 卸载对降低数据中心成本的影响, NVIDIA 与 Red Hat 为一个配备 51K 服务器的中型数据中心制定了一个 TCO 模型。我们认为该数据中心支持 100 万个应用程序,每个应用程序需要每秒 10 万个数据包(PPS)的交换性能。


我们考虑了两种服务器部署方案 —— 有和没有 DPU :


  • 没有 DPU 的服务器完全在软件中运行虚拟交换,仅实现 35 万 PPS 。

  • 有 DPU 的服务器将 OVN 和 OVS 卸载到 DPU, 其性能提高了 54 倍,达到每台服务器 1870 万 PPS 。


将虚拟交换机卸载到 DPU 上还为每台服务器节省了八个 CPU 内核。基于此测试, TCO 模型惊人的节省了 6850 万美元资本支出。由于更高的网络性能和每台服务器 CPU 内核的节省,这些节省被认为可以减少部署 10K DPU 增强服务器。


我们看到,由于更小的服务器空间占用而节省了电力,这最终导致基于 DPU 的服务器具有更好的 TCO 模型。随着我们将负载平衡器、防火墙、加密、Web 服务器等附加功能卸载到 DPU ,这些 TCO 节省将变得更好,最终为云就绪数据中心实现惊人的效率。


解决方案路线图和在 BlueField 上部署 OpenShift


在 BlueField 上运行 OpenShift 的双集群 OpenShift 架构现已作为 OpenShift 4.10 的开发者预览版或早期试用版提供,预计将于 2022 年全面推出。


但 NVIDIA 与 Red Hat 团队并没有就此止步。我们计划测试网络流量加密/解密的卸载,因为这是一项 CPU 密集型任务。


  • BlueField-2 DPU 可以卸载高达 100 Gbps 的 IPsec 加密/解密和高达 200 Gbps 的 TLS 加密/解密。

  • BlueField-3 有望以更高的速度支持 IPSec 、TLS 和 MACsec 。


从 OpenShift 到 DPU 实现线速加密卸载将提高租户的数据安全性,并帮助您更接近零信任安全状态。


与 DPU 的其他潜在集成包括更复杂的软件定义的网络卸载、在 BlueField 上运行防火墙代理、精确时间同步、具有数据包匀速的视频流,以及使用 DPU 收集遥测数据。


NVIDIA 现已发售 BlueField-2 DPU ,BlueField -3 DPU 将于 2022 年晚些时候开始提供样品。此外,BlueField DPU 不久将在 NVIDIA LaunchPad 云服务中进行测试。


如果您想测试或开发运行在 NVIDIA BlueField DPU 的 Red Hat OpenShift ,请扫描下方二维码提交您的信息。



总结


如果您的组织寻求在数据中心采用云原生计算,NVIDIA BlueField DPU 、Red Hat Enterprise Linux 和 Red Hat OpenShift 的组合可以提供一个高效、创新的开放式混合云平台,具有全新的安全功能。这个强大的平台提供硬件加速功能,以运行关键的软件定义的网络、存储和安全功能。


现在,可以分配更多的服务器资源来运行云原生工作负载,以及传统的业务应用程序。



NVIDIA DOCA 现已开放接受申请,扫描下方海报二维码,即可注册加入,抢先体验,走在技术前沿!


评论
  • 前篇文章中『服务器散热效能不佳有解吗?』提到气冷式的服务器其散热效能对于系统稳定度是非常重要的关键因素,同时也说明了百佳泰对于散热效能能提供的协助与服务。本篇将为您延伸说明我们如何进行评估,同时也会举例在测试过程中发现的问题及改善后的数据。AI服务器的散热架构三大重点:GPU导风罩:尝试不同的GPU导风罩架构,用以集中服务器进风量,加强对GPU的降温效果。GPU托盘:改动GPU托盘架构,验证出风面积大小对GPU散热的影想程度。CPU导风罩:尝试封闭CPU导风罩间隙,集中风流,验证CPU降温效果。
    百佳泰测试实验室 2025-01-24 16:58 189浏览
  • 随着AI大模型训练和推理对计算能力的需求呈指数级增长,AI数据中心的网络带宽需求大幅提升,推动了高速光模块的发展。光模块作为数据中心和高性能计算系统中的关键器件,主要用于提供高速和大容量的数据传输服务。 光模块提升带宽的方法有两种:1)提高每个通道的比特速率,如直接提升波特率,或者保持波特率不变,使用复杂的调制解调方式(如PAM4);2)增加通道数,如提升并行光纤数量,或采用波分复用(CWDM、LWDM)。按照传输模式,光模块可分为并行和波分两种类型,其中并行方案主要应用在中短距传输场景中成本
    hycsystembella 2025-01-25 17:24 473浏览
  • 飞凌嵌入式基于瑞芯微RK3562系列处理器打造的FET3562J-C全国产核心板,是一款专为工业自动化及消费类电子设备设计的产品,凭借其强大的功能和灵活性,自上市以来得到了各行业客户的广泛关注。本文将详细介绍如何启动并测试RK3562J处理器的MCU,通过实际操作步骤,帮助各位工程师朋友更好地了解这款芯片。1、RK3562J处理器概述RK3562J处理器采用了4*Cortex-A53@1.8GHz+Cortex-M0@200MHz架构。其中,4个Cortex-A53核心作为主要核心,负责处理复杂
    飞凌嵌入式 2025-01-24 11:21 293浏览
  • 不让汽车专美于前,近年来哈雷(Harley-Davidson)和本田(Honda)等大型重型机车大厂的旗下车款皆已陆续配备车载娱乐系统与语音助理,在路上也有越来越多的普通机车车主开始使用安全帽麦克风,在骑车时透过蓝牙连线执行语音搜寻地点导航、音乐播放控制或免持拨打接听电话等各种「机车语音助理」功能。客户背景与面临的挑战以本次分享的客户个案为例,该客户是一个跨国车用语音软件供货商,过往是与车厂合作开发前装车机为主,且有着多年的「汽车语音助理」产品经验。由于客户这次是首度跨足「机车语音助理」产品,因
    百佳泰测试实验室 2025-01-24 17:00 194浏览
  • 项目展示①正面、反面②左侧、右侧项目源码:https://mbb.eet-china.com/download/316656.html前言为什么想到要做这个小玩意呢,作为一个死宅,懒得看手机,但又想要抬头就能看见时间和天气信息,于是就做个这么个小东西,放在示波器上面正好(示波器外壳有个小槽,刚好可以卡住)功能主要有,获取国家气象局的天气信息,还有实时的温湿度,主控采用ESP32,所以后续还可以开放更多奇奇怪怪的功能,比如油价信息、股票信息之类的,反正能联网可操作性就大多了原理图、PCB、面板设计
    小恶魔owo 2025-01-25 22:09 612浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 494浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 241浏览
  • 书接上回:【2022年终总结】阳光总在风雨后,启航2023-面包板社区  https://mbb.eet-china.com/blog/468701-438244.html 总结2019,松山湖有个欧洲小镇-面包板社区  https://mbb.eet-china.com/blog/468701-413397.html        2025年该是总结下2024年的喜怒哀乐,有个好的开始,才能更好的面对2025年即将
    liweicheng 2025-01-24 23:18 350浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 465浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 1229浏览
  • 故障现象 一辆2007款日产天籁车,搭载VQ23发动机(气缸编号如图1所示,点火顺序为1-2-3-4-5-6),累计行驶里程约为21万km。车主反映,该车起步加速时偶尔抖动,且行驶中加速无力。 图1 VQ23发动机的气缸编号 故障诊断接车后试车,发动机怠速运转平稳,但只要换挡起步,稍微踩下一点加速踏板,就能感觉到车身明显抖动。用故障检测仪检测,发动机控制模块(ECM)无故障代码存储,且无失火数据流。用虹科Pico汽车示波器测量气缸1点火信号(COP点火信号)和曲轴位置传感器信
    虹科Pico汽车示波器 2025-01-23 10:46 321浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦