“数据中心没有固定模板,并不存在‘典型的’数据中心。”赛灵思数据中心事业部市场营销总监Ed Wright日前在接受《电子工程专辑》采访时表示,之所以做出这样的判断,是因为数据中心的工作负载始终处于持续的动态变化中,没有单一或某种特定类型的应用能够主导数据中心。因此,现有的数据中心必须要能够在不进行硬件升级和扩展的前提下,保持可扩展性和敏捷性,以应对不断变化的应用需求。
包括SN1000 SmartNIC、AI视频分析平台、加速算法交易、应用商店在内的“可组合式数据中心”,是赛灵思为解决上述挑战给出的最新解决方案。所谓的“可组合式”,Ed解释说,是不仅要求计算、网络和存储的分离,也不仅仅停留在基础设施层面,而是可以在器件级实现可扩展和可配置。如果用更精炼的文字加以表述,那就是八个字:“软件定义,硬件加速”。
不存在“典型的”数据中心
硬件可组合,SmartNIC的再进化
标准网卡(NIC)自20世纪80年代便已出现,到本世纪初,许多公司开始投身该领域进行创新。他们最初的重点是10G级别的高性能计算(HPC),能够支持非常高效的输入输出,而且从服务器到网络,再到存储,都不需要进行加速。
但是在从10G到25G节点的过程当中,传统CPU内核开始出现卡顿,出现了旨在减轻CPU负担并同时推进网络数据包加速的卸载NIC。但卸载NIC的弊端在于使用的都是ASIC芯片,无法编程,卸载能力有限,随着端口速率从25G向100G一路迈进,可编程SmartNIC(智能网卡)应运而生,现在SmartNIC不仅可以用于更广泛类别的卸载,还可以基于ASIC Arm和FPGA芯片设计。
最早采用SmartNIC技术的是以百度、阿里和腾讯为代表的超大规模数据中心和云服务提供商,他们对于网络、安全和存储的卸载性能要求一直是最高的。另一方面,这些超大规模数据中心客户的要求各不相同,导致CPU和SoC规模化性能不足,无法满足硬件加速的要求和性能;而AISC实现方案又缺乏定制能力,跟不上超大规模数据中心每隔12-18个月就会发生重大变化的演进速度。
因此,在2020年推出的25Gb SmartNIC Alveo U25的基础上,赛灵思日前推出了全新的100Gb SmartNIC Alveo SN1000。
SN1000包括UltraScale+ FPGA架构、ARM子系统和可编程的Vitis Networking软件,拥有控制面和数据面分离的异构架构,支持2×100GB端口速率,完全符合数据中心封装尺寸和75瓦功耗需求。正因为如此,赛灵思数据中心事业部网络与存储产品管理总监Kartik Srinivasan才将其称之为“业界首款硬件可组合式SmartNIC”。
即插即用是SN1000 SmartNIC的标志性特点。得益于赛灵思预先对硬件进行了包括OVS加速、网络虚拟化安全加速和存储加速在内的各项加速,不同用户在使用时,既可以选择对远程存储或NVMe进行加速,也可以对网关流量进行加速。如果客户不采用OVS加速,而是选择加入定制的虚拟交换机,也能够同时对虚拟化和安全进行加速。
客户如何才能充分利用这种可组合式的功能呢?Kartik解释说,构成数据平面的收发流水线都有数个可编程入口点,客户可以在这些入口点上使用Vitis软件开发平台连接其使用P4、C/C++、HDL或HLS编写的代码块。然后,Vitis会将此代码编译成逻辑,帮助工程师在适当的数据包处理流水线中插入他们认为合适的模块。这可以让数据包以极快的速度通过数据平面,从而使赛灵思能够支持线速包处理。
对于成熟的用户来说,他们可以继续使用RTL或是传统的FPGA编程方法对数据面进行管理。通过这样的模块,无论是配置还是加速,既可以由赛灵思来做,也可以由客户、客户的客户、或是独立的软件和IP合作伙伴来做,他们可以在赛灵思App商店(Xilinx App Store)里买到这些硬件加速功能。
赛灵思应用商店是客户能够消费这些解决方案和应用的一种全新的方式,会非常容易的帮助他们去评估、购买并且部署有关的应用,例如能够更加方便的管理有关的许可证,更加方便的通过数字知识产权管理计划来获取相关数据,并且能够更好的给客户推送相关应用。Ed预计,从2021年起,赛灵思应用商店将会成为客户评估并且部署加速解决方案和应用的优选方式。
赛灵思的智能世界
基于Alveo的AI视频分析平台是赛灵思“智能世界解决方案”的一部分,它具备合作伙伴解决方案生态系统,并且专为最复杂、时延最敏感的AI视频推断应用提速而打造。根据赛灵思数据中心部亚太区数据中心战略营销经理Guruprasad M. Parthasarathy的介绍,该平台由视频机器学习流服务器(VMSS)支持,可以提供整体应用加速,还能在单个Alveo加速器卡上以确定性的低于100毫秒的流水线时延支持多个神经网络。这样做的结果就是,能够以业界最低的总拥有成本(TCO)支持严苛的AI视频应用。
在Guruprasad看来,最至关重要的AI视频分析应用指的是那些保护人的生命、健康和财产的应用,这些应用的复杂性不断提高,而复杂性又让架构不胜负荷,例如确定性的低时延变得更难以实现,OPEX(空间、能耗)和CAPEX(硬件成本)随着复杂性增大而陡增。
“赛灵思智能世界视频分析解决方案能够双管齐下同时解决企业和开发者的痛点。” Guruprasad说对企业而言,解决了方案生态系统,能立即部署至关重要的视频AI分析应用;对开发者而言,VMSS平台赋能合作伙伴和开发者为复杂AI推断交付低时延解决方案和插件。在他列举的一个零售场景中,与英伟达T4 GPU相比,该方案在总拥有成本方面能够降低30%,时延方面降低75%到80%。
与此同时,赛灵思生态系统还发布了以下解决方案:
Aupera 将公司的智能视频AI处理与Alveo加速器结合,提供了交钥匙智能城市和智能零售解决方案,为关键应用提供同类最佳的AI分析解决方案。
Mipsology 提供了一套工具集,助力现有 AI 应用从基于GPU的架构向Alveo平台轻松迁移,同时兼具即插即用的高性能 AI推断加速功能。
Deep-AI,通过Alveo加速器在边缘提供业界首款集成训练与推断能力的解决方案。与基于GPU的解决方案相比,Deep-AI独特的突破性INT8 AI训练可提供单位成本高达 10倍的性能提升。
毫秒必争的加速算法交易
当今的算法交易主要分为两大类别:一个是硬件算法交易,另一个是软件算法交易,两者之间不但功能和性能差异极大,而且如果软件算法交易想要转换成硬件算法交易,门槛很高,硬件开发者、高昂的成本、漫长的交付周期和高风险都是要考虑的因素。
同时,金融交易对低延时提出了更高的要求。因为如果无法在延时上竞争,不仅成本高昂,而且会对交易成本分析(TCA)造成负面影响。而微妙时延壁垒的突破不仅能赋予交易者重大优势,而且还能最大限度的降低高频交易(HFT)损失。但目前的CPU已触及性能天花板,无法再加快速度,未与网络连接的PCI拖慢交易速度。
而基于Alveo加速卡新推出的赛灵思加速算法交易,不但开箱即用部署,而且可以帮助交易者使用非常复杂的策略,不需要进行硬件的开发,就可以实现不到一微秒的低时延要求。
在Vitis软件平台上,开发者可以通过模块化的方式来构建并且部署基于FPGA的Alveo卡,由于支持库的混搭,该方案能够支持非常广泛的算法交易用例,从而在此基础上轻松部署算法交易的框架和IP。通过这样的方式,交易者可以在赛灵思加速算法交易框架中,使用各种各样的库进行组合,并且支持C和C++语言进行编程,继而就能支持非常广泛的软件开发商,也便于对内部和第三方的应用进行集成。与此同时,新的加速算法交易也使得时延降低到微秒级以下,达到了300-400毫秒,并将上市时间由过去的几年缩短到目前的几周。
包括经纪人、交易所、市场数据厂商、销售侧厂商和自营交易商在内的各种机构用户,只需通过赛灵思经销商和分销商购买Alveo U50和Alveo U250,然后从Xilinx.com免费开源下载使用即可,无需许可证的费用。
结语:
FPGA的优势是众所周知的,赛灵思最近发布的这些解决方案,目的是希望能够突破企业和FPGA技术采用方面的壁垒,使得FPGA更加的简单易用。换句话说,用户实际上并不需要知道FPGA是解决方案的核心,就可以利用FPGA的功能而无需进行任何FPGA设计,或是完成繁重的工作,或是生产出完整的、交钥匙的解决方案,从而为其设备开拓广阔的新市场。