距赛灵思(Xilinx)8月推出拥有350亿颗晶体管的Virtex UltraScale+ VU19P FPGA产品之后不到3个月,“全球最大容量FPGA产品”的名号再次易主。
英特尔(Intel)网络与自定义逻辑事业部副总裁兼FPGA电源产品营销总经理Patrick Dorsey日前在“英特尔FPGA技术日”上宣布,量产型Stratix 10 GX 10M FPGA以14nm制程工艺+1020万个逻辑单元+433亿颗晶体管的数据,正式取代VU19P,成为全球密度最高的FPGA产品。
而在此之前,英特尔已经发布了Stratix 10 DX FPGA和Agilex FPGA两款产品。前者曾是英特尔最高密度的单片FPGA,最高密度的SoC,集成了58Gbps收发器模块,并采用HBM2内存;后者基于英特尔10nm工艺制程,数据处理能力相较于上一代Stratix 10性能提升了40%、功耗降低了40%,同时DSP(FP16)性能高达40TELOPS,支持最先进的存储器,收发器速率达到惊人的112Gbps。
FPGA容量如何越做越大?
嵌入式多芯片互连桥接(Embedded Multi-die Interconnect Bridge,EMIB)技术推动了该项纪录的诞生。在Stratix 10 GX 10M FPGA中,英特尔利用EMIB技术融合了两个高密度Stratix 10 GX FPGA核心逻辑芯片(每颗芯片容量为510万个逻辑单元)以及相应的I/O单元,相比上一代Stratix 10 GX 1SG280 FPGA,新产品的密度和I/O扩展分别增加3.7倍和2倍,但功耗却降低了40%。
这种设计思路的优势在于单片内核架构避免使用多个FPGA管芯来提高密度的连接问题,协议与协议之间的连接、I/O之间的连接不存在任何问题,从而进一步提高了性能,降低了复杂度和成本,增强了信号完整性。例如,使用异构3D SiP集成技术为Stratix 10器件提供了途径来实现更高的收发器速率、新出现的调制格式、通信标准(PCIe Gen4、多端口以太网),以及模拟和宽带存储器等其他功能。
此前,Intel已经通过使用EMIB技术将I/O和内存单元连接到FPGA构造芯片,从而实现了Stratix 10 FPGA家族的规模和种类不断扩张。包括集成了8GB/16GB 3D堆叠HBM2 SRAM单元的Stratix 10 MX,最近发布的Stratix 10 DX FPGA 则集成了EMIB相连的P tile,具备PCIe 4.0兼容能力。
“用来制造Stratix 10 GX 10M FPGA的半导体和封装技术,并不仅仅是为了制造世界上最大型的FPGA,这只是一个附加值,尽管相当重要,但并不是重点。”Patrick Dorsey在接受媒体采访时表示,真正的重点在于这些技术让英特尔能够将不同类型的半导体芯片,包括FPGA、ASIC、eASIC结构化ASIC、I/O单元、3D堆叠内存单元和光子器件等整合到封装系统(SiP)中,以满足特定的客户需求。
为大规模ASIC原型设计、仿真和验证保驾护航
Patrick Dorsey援引相关机构的统计数据称,到2022年,FPGA市场规模将会达到75亿美元,年复合增长率为9%,从数据中心端一直到边缘端的网络加速、人工智能和智慧城市/工厂是他最为看好的三大FPGA高增长市场,但大规模ASIC原型设计、仿真和验证市场才是推动大容量FPGA不断刷新记录的真正动力。
很多与IC和系统开发相关的工作,包括使用真实硬件的算法开发、芯片制造前的早期SoC软件开发、RTOS验证、针对硬件和软件的极端条件测试、连续设计迭代的回归测试等都与大容量FPGA相关,对这些供应商而言,如果能够将当前最大的FPGA用于ASIC仿真和原型设计系统中,往往意味着获得了巨大的竞争优势。
仿真和原型设计系统旨在帮助半导体厂商在芯片制造前发现和避免代价高昂的软硬件设计缺陷。众所周知,芯片在制造完成后修复硬件设计缺陷的成本,或者是当设备制造出来并交付给终端客户后再进行修改的费用极为高昂,没有哪个设计团队负责人敢于忽视这项谨慎的验证性投资。另一方面,包括Intel在内的很多大型半导体公司都开发了自定义原型设计和仿真系统,并在流片前使用该系统来验证自身大规模、高复杂度、高风险的ASSP和SoC设计,因此仿真和原型设计系统的使用已经越来越普及。
使用最大型的 FPGA就能够在尽可能少的FPGA设备中纳入大型ASIC、ASSP和SoC设计。Stratix 10 GX 10M FPGA支持Quartus Prime软件套件和仿真/原型设计系统的开发,适用于耗用亿级ASIC门的数字IC设计。由于很多中国企业在AI和5G领域已经展开了布局,Patrick Dorsey对这款新品在中国市场的前景抱有非常乐观的态度。
“众所周知的秘密武器”
未来是万物互联的社会,更深层次来看是数据的社会。预期到2020年,普通用户每天产生的数据量为1.5GB,智慧医院每天3TB,自动驾驶每天达4TB,而联网飞机和智慧工厂每天分别达到了40TB和1PB!到2025年,中国数据总量将达到48.6ZB,同时拥有超过800亿台智联设备。
“FPGA生态系统是英特尔众所周知的秘密武器”,英特尔公司市场营销集团副总裁兼中国区总经理王锐称,在该生态系统中,英特尔提供了包括基于 LLVM的SYCL开源编译器、Intel C++ Compiler编译器、OpenVINO工具包等在内的各种软件和IP。英特尔生态圈合作伙伴不仅能够得到奖励与激励、FPGA技术支持和培训,同时英特尔还提供联合营销和商务对接服务。
在英特尔公司网络和自定义逻辑事业部副总裁兼FPGA生态系统开发与运营总经理Lakecia Gunter列举的两个案例中,埃森哲公司利用英特尔Arria 10 FPGA和AI功能,实现了对珊瑚礁健康和海洋生物的监控。而富士通则通过在企业服务器使用英特尔Arria 10 FPGA加速堆栈,帮助恢复地震中遭到破坏的国家历史古迹。
作为英特尔FPGA生态系统的延伸,英特尔FPGA创新中心自从去年落地重庆以来担负起了云加速中心、培训及认证、全球创新大赛及峰会,以及创新展示的定位与功能。英特尔FPGA中国创新中心总经理张瑞表示,英特尔希望FPGA创新中心,将重庆打造成为中国FPGA发展的人才培育中心、生态创新中心和产业集聚中心,促进中国FPGA创新生态健康蓬勃发展。
迎接多元化计算时代
发展半导体精尖制造技术和平台,生产世界上最好的芯片,持续推动制程和封装工艺技术创新,当然是英特尔的使命,但还不是全部。
英特尔网络和定制逻辑事业部副总裁兼FPGA和电源产品部门总经理David Moore指出,以数据为中心的时代重要的不仅仅是数据量,数据的类型同样需要投以更多的关注。而以类型划分,数据可分为结构化数据、非结构化数据和最佳处理近源数据。这些数据洪流采用全新的数据并行化方式,具备新的数字格式和精度特性,并对实时和QoS提出了更高的要求,意味着需要更多硬件和软件的深度定制以及更高灵活性。
也就是说,当我们从更高的维度来看数据架构时,就会明显的意识到,在这个海量数据推动计算架构快速演进并呈指数级扩展的时代,没有一种单一的技术可以全面满足消费者或企业客户对未来的计算需求,不可能只通过直接的标量架构就能解决所有应用,他们需要的是在多样化的层级结构中连接多样化的架构,比如分别应用于CPU、GPU、AI和FPGA产品中的标量(Scalar)、矢量(Vector)、矩阵(Matrix)和空间(Spatial)架构。因此,必须要从包括制程和封装、架构、内存和存储、互连、安全、软件在内的一系列基础构建模块上进行创新。
即将推出的“OneAPI”软件编程框架就是很好的例证。按照英特尔网络自定义逻辑事业部副总裁兼可编程软件工程设计总经理Xue Hua的说法,海量数据多样性时代,如何最大程度释放硬件性能、简化跨不同计算架构的应用程序开发工作,是摆在开发者和客户眼前的主要难题。
因此,OneAPI为软件开发者提供了单一源的异构编程环境,支持常见的性能库API、Intel VTune和Advisor等软件开发工具,能够将软件匹配到能最大程度加速软件代码的硬件上,用以简化包括FPGA、CPU、GPU、人工智能和其它加速器在内的各种计算引擎的编程接口,降低各种架构和工作负载下的开发复杂性,加速六大技术支柱的大规模部署。
在向数据公司转型的过程中,英特尔将自身定义为端到端方案提供商,即产品线覆盖云端、网络传输端和终端。其中,核心来自云端的大规模数据处理,而布局端到端则可以让英特尔掌握“数据什么时候来、是什么样的数据、需要怎么来处理”。通过超异构计算,英特尔可以集成不同架构、不同制程、3D封装、互连和OneAPI等技术,确保可以最有效地实现产品多样性,提升产品稳定度,快速满足客户定制化和市场化的需求。