2019年第一季度,Futuriom针对来自中/美/英三国云计算(49%)、电信(26%)和企业IT领域(25%)的200多位专业人士,就如何“有效利用服务器和存储”进行了调研。当被问及“对提高数据中心性能的技术进行排名”时,得分最高的是“使用对处理器卸载和智能网卡(SmartNIC)等技术来提高网络效率”,得分最低的则是“部署更多的服务器”。而“提高虚拟机效率”和“虚拟化和共享闪存存储以更有效地使用它”,成为了最具吸引力的SmartNIC应用。更值得关注的,是中国因其强烈认可SmartNIC优化存储网络的作用而在三个国家中脱颖而出。
什么是SmartNIC?
标准网卡(NIC)和智能网卡的根本区别在于SmartNIC是围绕FPGA平台设计的,通过FPGA协助CPU处理网络负载,编程网络接口功能。通过编程,SmartNIC可以执行从优化流量到在恶意数据到达服务器之前识别和隔离它等等的任何操作,诸如远程直接内存访问、非易失性内存快速结构(NVMe-oF)、压缩、加密和网络虚拟化等任务对服务器内核持续的需求,降低了这些服务器内核支持应用程序的能力。更先进的SmartNIC甚至可以虚拟化网络存储,从而简化虚拟服务器和裸机服务器的配置。
市场研究机构Dell’Oro的数据显示,预计到2024年,SmartNIC市场规模将超过6亿美元,占全球以太网适配器市场的23%。而整体控制器和适配器市场将以7%的年复合增长率增长,其中25Gbps和100Gbps的销售将是主要增长驱动力。
之所以能够取得如此高的增长率,原因在于目前数据中心内部流量(也称横向流量)的年复合增长率都在25%以上,但与此同时,随着SDN的增加,云服务器会在CPU和软件中使用很多SDN功能,使得高达30%的数据中心计算资源被分配用于联网I/O处理云数据。
图:赛灵思大中华区销售副总裁唐晓蕾(Maria Tang)(左), 赛灵思数据中心事业部产品及平台营销副总裁Donna Yasay(右)
“这个问题随着时间的推移只会越来越严重。”赛灵思数据中心事业部市场营销副总裁Donna Yasay说,现在以几何级数幅度增长的联网端口速度,远超摩尔定律和Dennard缩放比例定律(Dennard’s scaling)的计算周期速度,这种差距的存在使得服务器中所有的CPU资源都将遭到挤占,而无暇顾及应用级处理,降低了CPU利用率。如果是公有云的话,他们需要把这样的资源出售给客户来进行变现。但如果不能出售这些核心内容,云服务商就会赔钱,这是一个非常严峻的问题。
亚马逊和微软这样的一级云服务提供商在很多年前就意识到了问题的严重性,纷纷选择卸载掉服务器的联网功能,并将这部分工作转移到SmartNIC上运行,以便释放出更多的CPU核,优化服务器利用率,降低联网成本。例如亚马逊收购了一家名为Annapurna的初创企业,专门开发类似的器件和SmartNIC;微软此前也通过将FPGA集成到SmartNIC上去卸载服务器的联网功能,并实现了数以百万计规模的部署。电信服务提供商则是另一大具有强劲增长潜力的市场,他们正考虑将SmartNIC从核心网集成到边缘网,为NFV和AI推断等应用提供服务。
但并非每一家公司都拥有足够的研发能力和人才储备去部署SmartNIC,因此目前有80%以上的云服务供应商尚未采用SmartNIC。相比之下,二、三级的厂商们就更加需要现成且方便的SmartNIC解决方案,无需自行开发,只需即插即用就可满足数据中心的卸载、存储和计算加速等需求。
开箱即用的“三位一体”平台
与赛灵思此前发布的Alveo系列中U200、U250、U280和U50等加速卡不同,U25主要面向2级和3级云服务提供商、电信和私有云数据中心运营商,定位更强调“集网络、存储和计算加速为一体的”SmartNIC平台属性,而非通过配备强大的计算资源用以强化加速性能,去处理包括视频转码、语音翻译、数据库查询、电子交易、财务建模、图像压缩与识别在内的工作负载。
U25的技术基石来自2019年4月赛灵思对Solarflare公司的收购,后者在高速以太网、应用加速和NVMe-oF(NVM Express over Fabrics)等许多关键领域居于领先地位。通过此次收购,赛灵思将自己的FPGA、MPSoC和ACAP解决方案与Solarflare的超低时延网络接口卡(NIC,网卡)技术以及Onload应用加速软件进行了出色的结合。
业界首款“一体化 SmartNIC 平台”—Alveo U25
根据Donna Yasay的描述,Onload技术能够使数据包无需经过内核就可直接输送到用户空间,而且Onload的驱动还能够直接处理TCP/IP堆栈,将数据传输到符合TCP(传输控制协议)标准的套接字(Socket)中。得益于Onload的使用,与标准的内核方法相比,网络时延降幅高达80%,并且在云应用中为基于TCP的服务器应用提高了效率,最高可达400%。除此之外,低时延在存储应用中也非常重要,它能够在分布式存储网络中降低与远程存储阵列之间的延时,使之看起来更像是通过本地连接而实现的存储。
她不认为将网络、存储和计算加速功能集成在一个平台上,就意味着对各个方面的性能进行了妥协。“事实上,我们认为U25的性能对二三级服务商来说是完全够用,甚至是绰绰有余的,尤其是相比基于SoC的SmartNIC方案。”
Donna Yasay为我们算了这样一笔账:竞争对手基于SoC的SmartNIC方案通常采用Arm内核处理器,虽然非常灵活,但性能低下,2000万-3000万数据包/秒已经是这种模式的极限了。这个数字对25G以太网的端口速度还是够用的,但如果想想运营商将很快从25G过渡到100G、200G甚至400G这一现实,那么担心就来了。
另一个方面,FPGA对于数据包的处理是通过管线形式实现的,每个时钟周期一个数据包。以时钟周期频率300赫兹计算,FPGA的净产出大约每秒3亿个数据包,这对于200G以太网来说性能足够,而FPGA实现起来也是不费吹灰之力。如果想进一步扩展性能,还可以使用多条管线,而且FPGA技术是动态可重配置的,也就是说,无需重置卡上的FPGA就可以升级现有的功能或者动态地增加新的功能。更重要的是,在同样的功耗水平上,FPGA所能够处理的数据包数量是SoC的4倍,单位功耗性能比是SoC的10倍,云服务商对这一数据非常看重。
即插即用的特性为SmartNIC的广泛部署铺平了道路。U25所提供的首个开箱即用型加速应用是对Open vSwitch(OVS)卸载与加速的支持。这个即插即用型解决方案将从服务器卸载90%以上的OVS处理,从而将数据包吞吐量提升5倍以上。未来,赛灵思还计划推出针对安全功能的一站式解决方案,包括IPSec、SSL/TLS、AES-256/128、分布式防火墙和AI推断等。
同时,U25还支持赛灵思和独立软件提供商(ISV)提供的一站式应用。其编程模型既支持HLS和P4等高级网络编程抽象,也支持Vitis统一软件平台等计算加速框架,以便实现赛灵思和第三方所提供的加速应用。
全新XtremeScale X2562 10/25Gb以太网适配器卡和开放计算加速器模块(OAM)的概念验证板是与U25同时推出的产品。前者符合OCP Spec 3.0外形尺寸规格,是针对高性能电子交易环境与企业级数据中心而设计的,可提供亚微秒级时延、高吞吐量,以及可将实时数据包和信息流连接到数千个虚拟NIC的超大规模连接能力;后者基于赛灵思UltraScale+ VU37P FPGA并搭载8GB HBM存储器,符合开放加速器基础设施(OAI)规格,可支持七条25Gbps x8链路,为分布式加速提供了丰富的模块间系统拓扑。
首款OCP 3.0全新 XtremeScale X2562 以太网适配卡
赛灵思大中华区销售副总裁唐晓蕾在谈到未来赛灵思在加速卡市场的布局时,从计算和存储这两个角度进行了解读。一方面,赛灵思还需要在计算加速,尤其是在云端的计算加速上进一步提升产品性能。同时,如何实现网络的可扩展性和网络管理的可视化,使整个网络智能化,也是努力的方向。另一方面,对数据中心来说,存储的带宽占用和成本开销都是具有挑战性的,这也是未来加速卡研发的方向之一。
而对于中国FPGA市场的发展,唐晓蕾表示,国产FPGA在高中低各个方面都有了长足的进步,这是有目共睹的事实。国产FPGA或者整体FPGA市场都十分具有发展潜力,赛灵思也十分期待中国国产FPGA的茁壮成长。但从另一角度看,FPGA是一个非常独特的产品,赛灵思也期待中国的国产FPGA市场能够涌现出更多具有竞争力的企业。“因为对于任何一个领域来说,有竞争才有活力。”她说。