自从30年前Altera和Xilinx开创可编程逻辑器件这一芯片类型以来,FPGA经历了巨大的变化,虽然凭借其灵活性和高性能而得以在科研、医疗和航空等高端计算领域得到广泛应用,但FPGA技术和市场始终是一个利基市场产品,在市场规模和销量方面难以跟CPU和GPU这类通用芯片相提并论。然而,随着云计算和AI的兴起,特别是微软和亚马逊这两家互联网巨头将FPGA引入其云计算平台,FPGA开始受到业界更广泛的关注,已经成为一个炙手可热的高速增长市场。
数据中心对FPGA加速卡的需求强劲
互联网巨头、云计算服务商和大型企业对数据中心的高性能计算需求越来越大,尤其是深度学习等对AI训练和推理的算力需求如饥似渴,传统的CPU已经无法满足要求。GPU、FPGA和专用芯片(ASIC)在这方面找到了用武之地,于是产生了基于CPU、GPU、FPGA和ASIC的各种加速卡,以行业标准接口插入服务器即可马上为AI和数据密集型应用带来10-100倍的加速处理性能。
图1:FPGA在多种数据密集型应用中性能都比传统CPU高出10-100倍
图2:FPGA加速卡可为数据中心带来诸多好处
据Semico研究公司预测,全球数据中心加速器(包括CPU、GPU、FPGA和ASIC)市场规模将从2018年的28.4亿美元增长到2023年的211.9亿美元,年复合增长率(CAGR)高达50%。其中增长最快的当数FPGA加速器,2018年只有10亿美元,到2023年将超过50亿美元,其增长驱动力主要来自企业级数据负载加速应用。
图3:数据中心加速器中FPGA的增长预测
FPGA加速卡对比:Achronix、Intel和Xilinx
FPGA行业最大的两家厂商Intel和Xilinx都于今年8月份发布了最新的FPGA加速卡。Xilinx的Alveo U50加速卡采用Xilinx UltraScale +架构,是其首款采用半高、半长尺寸的Alveo产品,与英伟达的T4 GPU卡尺寸相同。U50具有8GB高带宽内存(HBM2)、超过400 GBps的数据传输速度、100 GB/秒的网络连接,并支持PCIe Gen 4和CCIX,其功耗为75瓦。
Intel则发布了FPGA PAC D5005,这是其可编程加速卡产品组合的第二个型号,它基于Intel Stratix 10 SX FPGA,与Intel Acceleration Stack(包括加速库和开发工具)配合可以为Xeon服务器提供数据密集型工作负载的加速。与Intel第一个基于Arria 10 GX FPGA的加速卡相比,FPGA PAC D5005具有三倍的可编程逻辑、高达32 GB的DDR4内存(增加了4倍)和更快的以太网端口(两个100GE端口与一个40GE端口)。小尺寸和低功耗的Arria 10 GX FPGA PAC加速卡适用于各种服务器,而大尺寸和大功率的PAC D5005则用于提供更高性能的加速。
Achronix在品牌知名度方面也许不如Intel和Xilinx,但其FPGA芯片在技术性能上却毫不逊色,尤其是其最新的Speedster7t。这一专门针对高带宽工作负载而优化的高性能FPGA芯片具有如下特性:
- 采用TSMC 7nm工艺制造
- 16个GDDR6通道,可提供高达4Tbps的存储器带宽
- 4个400G以太网接口(4x400G或16x100G)
- 72个SerDes端口,支持1-113Gbps数据速率
- 4个PCIe Gen5端口,支持16通道和8通道配置
图4:Achronix Speedster7t采用一种全新的二维片上网络(2D NoC)布线结构
相对于Xilinx UltraScale +和Intel Stratix 10 SX FPGA的特别之处在于,Achronix Speedster7t在设计上采用了一种新的二维片上网络(2D NoC)布线结构,类似于城市高架立交桥的设计架构,可以极大缓解交通堵塞。此外, Speedster7t还使用一种灵活的机器学习处理器(MLP)专门针对人工智能/机器学习(AL/ML)进行了优化,比如支持多种浮点格式和整数格式,在Int8整数格式下可以提供多达41k的乘累加单元(MAC)和高达134TOPS的运算能力。
图5:Achronix市场营销副总裁Steve Mensor与BittWave公司副总裁Sam Bichara在深圳联合发布VectorPath加速卡
最近Achronix与Molex集团旗下的FPGA加速卡设计公司BittWave合作,开发出基于Speedster7t的VectorPath加速卡。这一高性能FPGA加速卡采用全高和3/4长(跟GPU一样)的外形尺寸,具有双倍宽带,有被动式、主动式和液冷三种散热方式,专门针对云平台服务商和企业级数据中心应用。此外,BittWave还为其提供了完整的FPGA开发工具BittWork II,具有完整的板块管理控制器(BMC),支持Linux和Windows操作系统。其开发工具包包括API、PCIe Drivers、应用案例设计,以及诊断和自测等。
图6:Achronix与BittWave合作开发的VectorPath加速卡基于Speedster7t FPGA芯片
VectorPath加速卡可以支持一系列高速数据和存储接口,包括:
- 200GbE QSFP56
- 400GbE QSFP-DD
- 16个PCIe Gen3端口,支持Gen4和Gen5
- 4Tbps GDDR6
- 8GB GDDR6
- 4GB DDR4
- 标准以太网接口
- GPIO和OCuLink扩展接口
图7:VectorPath加速卡可以支持一系列高速数据和存储接口
除了FPGA原厂Intel和Xilinx提供FPGA加速卡之外,还有一些第三方开发商也提供针对特定应用的FPGA加速卡,比如被英伟达收购的Mellanox提供FPGA智能网卡Innova-2 Flex,浪潮基于Xilinx FPGA的F37X加速卡集成了8GB的HBM2片上高速缓存,而华为基于16nm工艺UltraScale+ FPGA开发的FX系列中端加速卡的典型功耗为75瓦,高端卡为200瓦。
30年来专注于FPGA卡开发的BittWare及其同行Nallatech均被电子组件产品供应商Molex收归旗下,并合并成为新的BittWare公司,从而成为服务于计算、网络和存储应用市场的专业FPGA加速卡开发商。除了基于Intel和Xilinx的FPGA芯片开发FPGA加速卡外,BittWare首次与Achronix合作,开发出更高性能的VectorPath加速卡,同时还可以为数据中心客户提供集成多张VectorPath加速卡的TeraBox FPGA服务器。
结语
面对全球数据中心和企业级应用对计算加速的巨大需求,Intel凭借其CPU+FPGA的优势而占据着主导地位,Xilinx则与AMD合作争抢这一利润丰厚且高速增长的市场。而Achronix作为FPGA市场的“小而美”玩家,也有其独到之处,与Molex/BittWave合作提供FPGA加速卡将会加速其FPGA芯片在这一市场的推进速度,从而在高性能运算、存储和网络加速市场占据一席之地。
本文为《电子工程专辑》12月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅
也可点击立即下载,下载12月刊完整版。