2020年是NVMe over Fabrics(NVMe-oF)最终起飞的一年吗?
非易失性快速内存(NVM Express,或NVMe)协议现已比较成熟了;作为其扩展,NVMe-oF规范使用NVMe将主机连接到整个网络矩阵(Fabric)中的存储器。NVMe-oF支持在主机与固态存储设备或系统之间通过网络进行数据传输。这类传输可使用基于NVMe消息的命令,通过以太网、光纤通道(FC)或InfiniBand完成。
Fabric的一个关键价值主张是,它可以连接分布式存储池(最有可能是NVMe SSD,但将来可能会使用其他永久内存)。此外,由于可使用TCP进行连接,因此这也可以远距离实现。这一规范的最新修订版NVMe-oF 1.1包含了对TCP传输绑定的支持,这样就能在标准的以太网网络上使用NVMe-oF,而无需进行配置更改或增加特殊设备。
可能正是这个能力使今年成为了NVMe-oF真正腾飞的一年,同时其又扩展了NVMe核心价值——释放了NAND闪存的全部优势。最初为硬盘驱动器构建的采用iSCSI等协议的体系结构,则无法做到这一点。
NVMe初始规范的发布已有将近十年,它利用计算机的快速外部设备互连(PCI Express,或PCIe)总线在本地传输数据。NVM Express组织负责监督这类协议;根据其说法,NVMe-oF与初始协议有90%相似(图1)。推出五年后,NVMe-oF率先获得美光科技(Micron Technology)的拥护,该公司选择使用自己的SolidScale架构来超越这个标准。这个架构是为低延迟、高性能访问计算和存储资源而创建的,专门用来解决数据中心中CPU使用不充分的问题。当时部署在应用服务器中的NVMe SSD所使用的IOPS和容量平均不到其50%。
图1:NVM Express路线图不断通过添加NVMe-oF来扩展其初始规范——NVMe-oF提供TCP传输绑定支持,因此可实现远距离存储。(图片来源:NVM Express)
此后,该公司选择将SolidScale淘汰,因为最终其可能使该公司与自己的某些客户形成竞争,那么就不合理,美光公司存储系统架构师兼研究员Joe Steinmetz表示。取而代之,该公司将专注于其作为NVMe-oF生态系统中SSD和内存供应商的核心优势。与许多技术一样,其采用所花的时间比预期要长,但他表示,2020年似乎是NVMe-oF之年,并且业界有足够的一致性来达到这一点。
但是,采用也存在障碍。Steinmetz认为,虽然将TCP和非RDMA传输包括在内有所裨益,但这也确实造成了一些混乱。“我认为这就是业界很多人预计NVMe-oF会很快采用,但是却推迟了一些的原因。”他表示。另一个重大障碍是软件生态系统——取决于客户计划如何使用NVMe-oF,这个生态系统仍处于起步阶段,Steinmetz补充说。
虽然添加TCP确实解决了距离挑战,并且TCP无处不在,这点很有用,但它并没有否定RDMA RoCE的适用性——许多存储OEM厂商在这方面都具有丰富经验。“TCP很好、必要,最终会推动采用。但我看不到RoCE会消失。”Steinmetz表示。
Steinmetz认为,在不久的将来,全闪存存储阵列供应商会成为使用NVMe-oF的先行者,因为他们希望为客户释放昂贵闪存的价值,而使他们完全获得高性能和低延迟。“我们在全闪存阵列方面看到了许多的应用和早期采用者。”
西部数据(Western Digital)也将NVMe-oF视为一场生态系统活动,并于今年早些时候推出了一些相互关联的产品,包括双端口的第三代Ultrastar DC SN840 NVMe SSD及其最新的OpenFlex Data24 NVMe-oF存储平台,用于扩展其性能并共享分布式(disaggregated)闪存。OpenFlex平台还整合了该公司RapidFlex控制器,实现了NVMe/NVMe-oF连接,同时兼顾了能效——这是其收购Kazan Networks所获得的能力。
西部数据产品管理与市场营销高级总监Scott Hamilton表示,该公司的NVMe-oF方法是故意无关的,但相信以太网会主导数据中心(图2)。“我们认为这最终会是成本最低、普及率最高的情况。”同时,西部数据已支持RoCE并计划支持TCP。该公司对NVMe-oF支持的一个重要里程碑,是其自己两年前推出的Open Composable架构。它具有多个层,可提供不同功能来支持可组合分布式基础架构,同时,它结合了多个行业标准来创建Open Composable API。
图2:西部数据的NVMe-oF方法是故意无关的,它包括其两年前推出的Open Composable(开放组合式)架构,这种架构结合了多种行业标准来创建Open Composable API。(图片来源:西部数据)
Hamilton表示,其目标是在不同的解决方案、供应商、产品和用户之间提供一致的体验,从而有望减少供应商的锁定并进一步推动与供应商无关的解决方案。他表示,NVMe-oF的早期采用是靠高性能和低延迟推动的,那些早期采用者正在使用RoCE达到目的,而TCP具有降低复杂性的好处。
西部数据数据中心系统合作伙伴联盟工程总监Mark Miquelon表示,如果延迟很重要,那么客户就会选择NVMe SSD,而如果没有NVMe-oF,那么可通过PCIe连接的数量就有限。“借助NVMe-oF,我们可以大大扩展这个范围。”他表示,虽然这会对延迟造成影响,但是却很小,因此可以将应用扩展到整个网络规模。
但是在现实世界中,NVMe-oF并不能消除网络拥塞的可能性。Miquelon表示,同一Fabric上可能有很多应用试图从相同的SSD或共享同一Fabric的不同SSD获取数据。这就是西部数据设立了“兼容性实验室”的原因——该实验室向所有人开放,供了解这些真实情况并帮助客户将基于Fabric的产品推向市场。“我们正在研究Fabric拥塞时的数据行为。”
另一个障碍是,即使交换机供应商都遵循标准,但每个供应商的标准都稍有不同,并且它们都使用自己的网络接口控制器(NIC)进行测试。因此,兼容性实验室还是个混合和匹配而创建配方的环境,这样就能使不同的交换机和NIC供应商之间实现良好的互操作性,并有助于减少供应商锁定,Miquelon表示。
如今,SSD正在推动NVMe-oF的采用,NVM Express会员公司——英伟达(Nvidia)的网络业务部门存储技术副总裁Rob Davis表示。“更快的存储需要更快的网络。SSD变得越来越快,PCI总线也变得越来越快,两者之间的网络也就要越来越快。对于未来来说,这确实是个很好的组合,尤其是在有大量数据、饥饿的应用(例如机器学习和人工智能)时如此。”他表示,从长远来看,可以想象其他永久内存可能会使用NVMe规范,包括3D Xpoint。“现已生产多年的英特尔Optane SSD,就对该低延迟堆栈进行了充分利用。”
带TCP的NVMe-oF还可以实现SAS的替代,从而帮助扩展企业存储阵列,Davis表示。“实际上,这是NVMe over Fabrics的主要目标用例之一。”他表示,另一种是去隔离式存储模型,包括超大规模数据中心——在此,大部分流量都是发生在数据中心内部。“他们只是在扩展闪存,而与CPU、DRAM和计算无关。他们可以使用标准网络设备在数据中心内的任何位置访问闪存。”
市场研究机构Coughlin Associates总裁Thomas Coughlin表示,即使光纤通道解决方案获得了NVMe-oF的早期采用,但由于普遍性,后者使用TCP的情况也越来越多。“基于TCP的网络可能已经获得最大的成功。”总的来说,NVMe-oF在存储系统和管理以及计算存储中都有明显用例,因为高性能接口可实现对不同位置(无论是不同的设施还是不同的机架)的内存之间进行协调,他表示。加速器技术也可能会搭配使用。
虽然NVMe本身已经相对成熟,但TCP支持也已经有两年了,而对NVMe-oF提供了帮助,Coughlin表示。他还没有预见到来自计算快速链接(Compute Express Link,CXL)或Gen-Z等新兴架构的直接竞争。“在未来几年中,这三者将在存储开发中发挥作用。同时涉足这三者的玩家很多,他们的目标可能是找到将它们一起使用的最佳方法。”
英伟达的Davis认为Gen-Z已被纳入CXL,并得到了英特尔的支持。“如果有英特尔支持,那么情况就很好。”他表示,与NVMe一样,CXL利用了PCIe这种成熟的标准化技术——每个人都已经习惯使用这个技术,这也促进了NVMe-oF的采用。即使人们不准备立即使用它,也可以为它做准备,也不必担心受困于专有技术中。
(原文刊登于EDN姐妹网站EETimes,参考链接:NVMe-oF Is Ready to Go the Distance,由赵明灿编译。)
本文为电子工程专辑姊妹网《电子技术设计》2020年11月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。