从Arria 10 GX,到Stratix 10 SX/TX、N3000,再到全新一代Agilex FPGA,英特尔在过去的18个月内,宣布了很多的FPGA可编程加速卡(PAC)平台解决方案,实现了对5G边缘/网络和数据中心服务器加速业务的全面覆盖。在此基础上,英特尔日前再度宣布出货全新Stratix 10 DX FPGA产品。
按照英特尔内部对产品的定位,GX系列属于面向众多市场的通用型产品,TX系列主要应用于高速网络,例如速度达到58Gbps每秒的以太网,而DX系列则主要针对与至强处理器服务器的连接。例如SX就专为内嵌处理和内存密集型工作负载而构建,如流分析和视频转码。而外形较小的采用Arria 10 FPGA的英特尔PAC适用于回溯测试、数据库加速和图像处理等工作负载。
VMware是此番英特尔Stratix 10 DX的合作伙伴之一,“与VMware的合作是英特尔市场进入策略中很重要的一部分。”但英特尔公司网络和自定义逻辑事业部副总裁兼FPGA和电源产品营销总经理Patrick Dorsey说,其实早在3个月前,英特尔就已经开始出货工程级样品设备与全套开发套件和API给包括中国在内的全球客户。
众所周知,FPGA在异构计算中具体有两种加速形式,即旁路加速和内建加速。旁路加速可以将重度计算功能转移到FPGA上,从而释放处理器去处理其他功能;而如果时延比较重要,则可以进行内建加速,从而通过FPGA的多功能性带来更好的网络存储和计算的加速。
而Stratix 10 DX的独特之处恰好就在于它的高带宽与低延时。作为英特尔首个支持超路径互连(UPI)和PCI-Express(PCIe) Gen4 x16的FPGA产品,Stratix 10 DX使至强处理器与FPGA无论采用傲腾还是DDR内存,均可实现存储共享,从而极大的扩展了系统内存,避免了数据迁移和拷贝带来的高成本,同时也提升了系统性能。
这种存储扩展的效果是惊人的。数据显示,通过与特定的英特尔至强可扩展处理器组合,UPI接口可将延迟降低37%,并实现28GB/秒的理论峰值传输速率。而符合PCI-SIG标准的Gen4 x16接口则能够提供32GB/秒的理论峰值数据带宽,从而将数据中心和非数据中心应用的吞吐量大约将提高1倍以上。此外,内存控制器还支持8个独立的傲腾™ DC持久内存控制器,总容量可到4TB。
Stratix 10 DX还非常适合从边缘到云端的高性能计算应用。在边缘计算应用方面,在AI或者是神经网络的计算任务上,要求应用进行超快速的响应。与仅仅使用PCIe的产品相比,Stratix 10 DX的响应速度快了37%。在网络应用当中,PCIe Gen4与前代相比提高了两倍带宽,这使得数据处理更为快速,同时也具有了以太网功能。在数据中心方面,通过英特尔的异构计算架构,即Xeon+FPGA组合,加之PCIe Gen4与UPI的互联,总带宽可以提升2.6倍。
目前,至强处理器和FPGA仍然是各自独立的器件通过接口连接,而非集成。当问到未来会不会有通过封装集成在一起的趋势时,Patrick对此回应说,集成是大趋势,但考虑到当前客户仍然偏好于保持灵活性以便于根据需求进行各种配置和优化,未必希望全部都集成封装起来,所以英特尔暂时没有相关计划。
在数据中心里作为CPU的硬件加速器,用来加速深度学习的模型训练、金融计算、网络功能卸载等各类应用,是当前FPGA的一个主要应用场景。但该领域亟待解决的核心问题之一,就是缓存一致性。换句话说,就是必须要明确CPU与硬件加速器之间的内存互联协议。
今年3月,英特尔宣布联合微软、阿里、思科、戴尔EMC、Facebook、谷歌、惠普企业HPE和华为等公司,共同推出一个全新的互联标准,取名为Compute Express Link(CXL),应用目标锁定互联网数据中心、通信基础设施、云计算与云服务等领域,而这也正是FPGA大显身手的重要平台。
Patrick强调称,UPI目前UPI是封闭的,只搭配至强处理器,但它为接下来完全公开的CXL路线图提供了新路径。基于英特尔技术,应用开发者、系统集成商以及各类设计人员只需要对硬件接口和一些软件进行更新,UPI就可以轻松升级到CXL。换句话说,因为硬件接口的不同,需要一个新的芯片,CXL是运行在PCIE GEN5电气接口上的协议,UPI是不同的一个接口,因此在芯片与硬件上需要更换。除了硬件之外,从开发者角度来讲,由于API应用接口略有不同,他们在进行迁移时还需要做一些其他的工作。
“即便如此,在ISV软件开发者以及CSP云服务提供商看来,UPI仍然带来了极大的好处。现在有了缓存一致性的解决方案之后,开发者可以充分利用一致性来进行应用开发的架构。所以尽管软硬件都需要做一些调整,但并不复杂。”Patrick说。
根据规划,为了确保高性能在线处理和处理器负载加速,英特尔下一代10nm Agilex FPGA将支持包括PCIe Gen 5和CXL在内的最新一代高性能处理器接口,并将成为首款采用Xeon可扩展处理器的一致的高速缓存和内存互联结构的FPGA。