Napatech是全球领先的智能网卡(SmartNIC)和IPU解决方案供 应商,业务范围涵盖云计算、企 业和电信数据中心应用等领域。Napatech将商用级软件套件与高 性能硬件相结合,致力于加速网络 基础设施、安全和存储工作负载,从而实现一流的系统级性能,同时为应用和服务提供最大化的服务器计算资源。
作者
Charlie Ashton
Napatech 业务发展高级总监
Rich Howell
英特尔产品营销经理
越来越多的企业和云数据中心开始采用NVMe/TCP存储技术,因为它在性能、时延、可扩展性、管理和资源利用率等方面优势显著。然而,在服务器上实施所需的存储启动器工作负载会带来巨大的计算开销,并限制可用于运行服务和应用的CPU内核数量。
这篇解决方案简介介绍了Napatech的集成式软硬件解决方案如何将存储工作负载从主机CPU卸载到IPU,同时在应用级别保持完整的软件兼容性。
该解决方案释放了主机CPU内核,避免其被存储功能占用。它的性能明显优于基于软件的实施方案,可显著降低数据中心的资本支出、运营支出和能耗。它还在系统中引入了安全隔离,增强了对网络攻击的保护,这有助于降低数据中心遭受安全漏洞和高价值客户数据泄露的风险。
NVMe/TCP:面向现代化数据中心的卓越存储技术
NVMe/TCP是一种存储技术,它允许使用标准数据中心结构通过网络访问快速非易失性内存 (NVMe) 存储设备。见图1。
图 1. 分散式存储架构
越来越多的现代云和企业数据中心开始采用NVME/TCP,因为相比旧的存储协议(如互联网小型计算机系统接口 (iSCSI) 光纤通道),它拥有极具吸引力的优势:
更高的性能:NVMe旨在充分利用基于NAND的现代高速固态盘 (SSD),并提供比传统存储协议更快的数据传输速率。NVMe/TCP将这些优势扩展到网络存储环境,允许数据中心通过网络结构实现高性能存储访问。
更低的延迟:NVMe/TCP的低延迟特性对于数据密集型应用和实时工作负载至关重要。NVMe/TCP可以最大限度地减少通信开销和消除协议转换需求,帮助减少存储访问延迟并提高整体应用性能。
可扩展性:数据中心经常处理大规模存储部署,NVMe/TCP通过网络提供灵活高效的存储访问解决方案,从而实现无缝的可扩展性。随着NVMe设备数量的增长,数据中心可以在没有明显瓶颈的情况下保持高性能水平。
共享存储池:NVMe/TCP允许创建可同时访问多个服务器和应用的共享存储池。这种共享存储架构提高了资源利用率,简化了存储管理,大大节省了成本。
传统基础设施兼容性:数据中心的现有基础设施通常建立在以太网、InfiniBand或光纤通道网络上。NVMe/TCP允许他们利用现有的结构投资,同时集成创新的基于NVMe的存储技术,而无需大幅调整整个网络基础设施。
高效的资源利用:NVMe/TCP通过减少应用对每个服务器上专用存储资源的需求,实现了更高的资源利用率。多个服务器可以通过网络访问共享NVMe存储设备,从而优化使用昂贵的NVMe存储资源。
面向未来:随着数据中心不断发展并采用更快的存储技术, NVMe/TCP提供了一种前瞻性的存储访问方法,确保存储网络能够满足不断增长的现代应用和工作负载需求。
纯软件存储架构的限制
尽管NVMe/TCP在存储方面具有显著的优势,但数据中心运营商必须意识到,在方案实施中,如果所需的所有存储启动器服务都在服务器的CPU上运行,这会带来很大的局限性。见图2。
图 2. 基于软件的网络存储
首先,如果存储虚拟化软件、管理程序或虚拟交换机 (vSwitch) 在网络攻击中受损,则会出现系统级安全风险。
其次,无法确保租户工作负载之间的完全隔离。单个架构在多租户环境中托管多个客户的应用和数据。当应用或虚拟机 (VM) 占用最多可用资源并降低共享基础设施上其他租户的系统性能时,就会出现“噪邻”效应。
最后,运行基础设施服务(如存储虚拟化软件、管理程序和vSwitch)需要很大一部分主机CPU内核。这减少了可用于虚拟机、容器和应用的CPU内核数量。报告指出,30%到50%的数据中心CPU资源通常被基础设施服务消耗。
在高性能存储子系统中,主机CPU可能需要运行多个协议, 如传输控制协议 (TCP)、基于融合以太网的远程直接内存访问 (RoCEv2)、InfiniBand和光纤通道。当主机CPU被大量用于运行这些存储协议和其他基础设施服务时,租户应用可用的CPU内核数量将大大减少。例如,16核CPU可能只能提供10核CPU的性能。
由于这些原因和其他原因,纯软件架构给数据中心存储带来了重大的业务和技术挑战。
基于IPU的存储卸载解决方案
将NVMe/TCP工作负载卸载到IPU,以及其他基础设施服务(如管理程序和vSwitch,见图3),解决了纯软件实施方案的局限性,并为数据中心运营商带来了显著优势:
CPU利用:NVMe/TCP通信需要将NVMe命令和数据封装在TCP传输协议中,主机CPU处理则会这些封装和解封装任务。将这些操作卸载到专用硬件上可以让CPU专注于其他关键任务,从而提高整体系统性能和CPU利用率。
更低延迟:将NVMe/TCP通信任务卸载到专用硬件可以显著减少处理存储命令的延迟。因此,在访问远程NVMe存储设备时,应用可以体验到更快的响应速度和更高的性能。
高效数据移动:将非CPU应用任务卸载到独立的硬件加速器上,可以比使用通用CPU更高效地执行数据移动操作。它可以有效地处理大数据传输和缓冲区管理,减少延迟并提高总体吞吐量。
更高的可扩展性:卸载NVMe/TCP任务可以提高大规模存储部署的可扩展性。通过减轻CPU处理网络通信的负担,系统可以支持更多的并发连接和存储设备,而不会受到CPU的限制。
高能效:通过将某些任务卸载到专用硬件,可以降低主机CPU的功耗。这种能效在大型数据中心环境中尤其重要,因为功耗是一个重要的考虑因素。
除了上述适用于NVMe/TCP存储工作负载的优势之外,基于IPU的系统架构还提供了增量安全隔离选项,从而将基础设施服务与租户应用隔离开来。这样可以确保存储、管理程序和vSwitch服务免受租户应用发起的网络攻击。基础设施服务是安全的,因为IPU本身的启动过程是安全的;而IPU充当主机服务器的信任根。
图 3. 支持IPU的分散式存储
Napatech存储卸载解决方案
Napatech为数据中心存储卸载提供了一个集成的系统级解决方案,包括在F2070X IPU上运行的高性能Link-Storage软件堆栈。见图4。
图 4. Napatech存储卸载
Link-Storage软件包含一套丰富的功能,包括:
将NVMe/TCP工作负载从主机完全卸载到IPU;
将TCP工作负载从主机完全卸载到IPU;
NVMe到TCP启动器;
通过存储性能开发套件远程过程调用 (SPDK RPC) 接口进行存储配置;
多路径NVMe支持;
通过virtio- blk接口向主机显示16块设备;
兼容普通Linux* 发行版中的标准virtio-blk驱动程序;
主机CPU和IPU之间的安全隔离,没有暴露于主机的网络接口。
除了Link-Storage,F2070X还支持Link-Virtualization软件,该软件提供了一个卸载和加速的虚拟化数据平面,包括开放式vSwitch (OVS)、实时迁移、虚拟机到虚拟机镜像、 VLAN/VxLAN封装/解封装、Q-in-Q、接收端扩展 (RSS) 负载均衡、链路聚合和服务质量 (QoS) 等功能。
由于F2070X基于FPGA和CPU(而非ASIC),因此可以在部署后更新平台的完整功能。无论是修改现有服务、添加新功能还是微调特定的性能参数,这种重新编程都可以纯粹作为现有服务器环境中的软件升级来执行,而无需断开、移除或更换任何硬件。
基于英特尔F2000X-PL的Napatech F2070X IPU是一款2x100G PCIe卡,采用英特尔® Agilex 7 FPGA F系列和英特尔® 至强® D处理器,拥有全高半长 (FHHL) 双插槽外形。请见图5了解详情。
图 5. F2000X-PL结构图
F2070X IPU的标准配置包括一个带有四组4GB DDR4内存的英特尔® Agilex 7 FPGA AGF023和一个带有两组8GB DDR4内存的2.3 GHz英特尔® 至强D-1736处理器。可以提供其他配置选项来支持特定的工作负载。
F2070X IPU通过PCIe 4.0 x16 (16 GTps) 接口连接到主机,FPGA和处理器之间还有一个额外的PCIe 4.0 x16 (16 GTps) 接口。
两个前面板QSFP28/56网络接口支持以下网络配置:
专用PTPRJ45端口提供与外部SMA-F和内部MCX-F接口的可选时间同步。支持IEEE 1588v2时间戳。
专用的RJ45以太网连接器提供主板管理功能。安全的FPGA图像更新支持在IPU部署完成后增加新功能或更新现有功能。
处理器运行Fedora Linux,具有UEFI BIOS、PXE启动支持、通过SSH进行完整shell访问和UART。
总 结
越来越多的企业和云数据中心开始采用NVMe/TCP存储技术,因为它在性能、时延、可扩展性、管理和资源利用率等方面优势显著。然而,在服务器的主机CPU上实施所需的存储启动器工作负载会带来巨大的计算开销,并限制可用于运行服务和应用的CPU内核数量。
Napatech的集成式软硬件解决方案包括在F2070X IPU(图6)上运行的Link-Storage软件堆栈,通过将存储工作负载从主机CPU卸载到IPU来解决此问题,同时在应用级别保持完整的软件兼容性。
图 6. Napatech F2070X IPU
Napatech的存储卸载解决方案释放了主机CPU内核,避免其被存储功能占用。它的性能明显优于基于软件的实施,可显著降低数据中心的资本支出、运营支出和能耗。
Napatech解决方案还在系统中引入了安全隔离,增强了对网络攻击的保护,这有助于降低数据中心遭受安全漏洞和高价值客户数据泄露的风险。