在前两年的世界互联网大会上,中国电子信息产业集团有限公司正式发布主导构建的生态体系——“PK体系”,这里的P指的是飞腾芯片,K则是指麒麟系统。这个生态体系的建立,很显然是立足于中国在电子科技产业的自主可控的。这里的飞腾芯片,即是早年就有国产CPU研发团队“三驾马车”之一之称的那个飞腾。早前飞腾处理器就已经在党政办公系统中,“应用了20万片”。
而飞腾的名号,早在多年前HotChips大会上宣布全球首款基于ARM的64核CPU“火星”FT-2000起便名声大噪。而且飞腾也是国产CPU企业中,唯一一个覆盖了高性能计算、桌面,到嵌入式领域的企业。所以我们才在今天由Aspencore旗下电子工程专辑、电子技术设计,以及国际电子商情联合主办的中国IC领袖峰会上,天津飞腾信息技术有限公司总经理窦强的发言中听得,有关“新基建”“端边云”全覆盖的内容分享。
不过在整个生态体系上,飞腾的设想远不止自己所在的底层硬件。去年12月,中国电子发布《PK体系标准(2019年版)》,这是中国第一个计算机软硬件基础体系标准,其中包括了参考框架、参考板卡、操作系统、外设接口、工程服务、安全等各种标准,为PK体系内的板卡设计、软件开发、项目实施等方面的操作和应用,提供参考指南。
很多人大概并不知道,国家、政府、相关企业在达成“自主可控”这个目标中,迈出的步子,比我们想象中的更大。从窦强的分享中,就能看得出来。
天津飞腾信息技术有限公司总经理窦强
边端云全栈生态的构建
现如今国家说的比较多的一个话题是“新基建”。窦强告诉我们,新基建包含了三大范围,分别是信息基础设施(通信网络基础设施、新技术基础设施、算力基础设施)、融合基础设施(智能交通基础设施、智慧能源基础设施),以及创新基础设施(重大科技基础设施、科教基础设施、产业技术创新基础设施)。说的更通俗些,这三者分别代表的是数字底座、产业上的应用,以及为技术发展演进所做的一些基础设施。
它本质上和“万物互联”是一回事,或者说“新基建会加速国内万物互联时代到来的步伐,并且为芯片企业提供新的机遇”。而万物互联从网络结构来看,是可以分成边、端、云的。从底层算力的角度来说,云边端需要通用计算能力、AI算力,以及更多其他专用算力。
不难想见,飞腾在做的是提供各种端到云的算力需求,并且按照“从端到云”“按需定制”“安全可信”,以及“开放合作”的方式,提供通用与专用算力。
而这种新基建、万物互联的建设,不仅是提供底层算力,还需要上层众多合作伙伴的共同努力,才足以实现真正的自主可控。窦强表示,当前飞腾的合作伙伴数量已经超过了1000家,包含了6大类800余种整机产品、1200余种软件。
实际上在今年4月份,飞腾与70多家生态合作伙伴发布了80多个行业联合解决方案,提供“开箱即用”的货架式产品组合——解决方案覆盖了能源、金融、交通、医疗、电信、工业、智慧城市等领域。而5月份,飞腾发布软件生态“百科全书”,这个百科全书旨在帮助行业客户、集成商提高选型效率。
当时发布的《飞腾软件生态产品手册》收录了一百多家软件合作伙伴,展现的就是一个国产化平台的软件生态。举个例子,在政务市场上的应用,业务向云环境的迁移,整个自下而上的架构就包括了飞腾平台+麒麟OS+腾讯云。
在相对具体的实施层面,这里我们举几个例子。这张图是飞腾在金融行业的应用案例。这是基于飞腾FT-2000+的解决方案。旨在满足金融行业基础设施采购模型,提供金融基础设施服务,且与国产数据库组合,逐渐具备构建金融核心系统的能力。
这里最底层基础设施的CPU部分——FT-2000+/64,自然就是飞腾的技术能力了。
再比如云计算领域,飞腾CPU具备硬件虚拟化能力,窦强列出的数据中提到,其“性能损失很小,计算和访存损失1-2%,IO性能损失7%左右”,目前已有的客户包括了中办、25个省党政机关、工信部等40多个国家部委、中国电子信息产业集团、建设银行等。
去年年末腾讯云宣布推出基于飞腾的全栈云平台体系。腾讯专有云TCE能够基于国产操作系统和飞腾的国产CPU提供自主可控的专有云解决方案。且腾讯专有云TCE未来有望在政务、金融等应用场景落地。
再来看一看电信领域的应用案例,如今最热的当然就是5G方面的应用了。飞腾畅想的“芯”生态,覆盖了5G白盒基站,5G云小站、5G MEC(多接入边缘计算),以及5G核心网。 比如其中的5G白盒基站,即5G接入网,“需要用到64核服务器这个档次的处理能力;还需要增加FPGA专用算力,增加白盒基站处理能力。”
而在MEC边缘计算部分,也有基于飞腾服务器搭载云平台,将UPF网元下沉,实现就近的边缘服务。更重要的5G核心网部分,基于飞腾服务器构建的核心网,搭载NFV云平台,实现UPF网元功能。
值得一提的是,从飞腾的路线图上看,图中所示的S2500是飞腾预期在今年推出的一款定位于高性能服务器的64核CPU。窦强也在会上表示:“S2500是一颗支持2-8路直连的芯片,400mm² die size。”预计未来这款多路服务器芯片,会“进入金融、运营商领域”。
从飞腾列出的参数来看,这颗CPU主频2.0-2.5GHz,包含64个FTC663内核(与当前的FT2000/4一样,是FTC66X系列中的最新一代微架构),支持2-8路直连(即单个计算机系统支持最多8颗处理器),而且有64MB L3 Cache——这一点相比FT2000+/64应该算是个重要提升,8个DDR4存储通道,150W功耗。窦强表示,其“单芯片性能与2014年的Intel至强高端服务器性能相当”,这里说的应该是至强E5——从早前FT2000/64的性能水平来看,S2500的FTC663微架构相比更早的FTC66X系列架构的IPC提升应该相对有限。
另外,“采用S2500搭建的双路服务器与华为鲲鹏服务器相当”,8路的最高配则是“目前最高性能的国产计算机系统”。
除了金融和电信领域,在更多市场,比如交通、能源领域。交通领域,在高铁列车牵引传动部分,基于飞腾的牵引传动系统硬件研发完成,“正在加速测试”;AFC部分,天津地铁5号线的AFC终端机已经投入运营;列控部分,也有基于飞腾的列控系统硬件研发完成,“正在样机测试”。能源领域,从发电、输电,到变电、配电用电,飞腾都有覆盖或预备做覆盖,如基于飞腾的DCS系统已在华电集团扬州电厂投入运行;变电部分,有基于飞腾FT2000-4处理器的继电保护装置正在研发等等。
这些都是整个生态在实现国家对信息技术的自主可控方面,我们能够看到的实实在在的例子。
在生态搭建部分,最后尤为值得一体的是,底层算力部分的支持,除了飞腾自己可提供的通用算力,早前我们就知道其AI算力部分的合作伙伴包括了百度、比特大陆、寒武纪等。此前,百度昆仑芯片、百度飞桨(PaddlePaddle)深度学习平台、比特大陆4款AI产品都已经与飞腾CPU完成适配。实际在CPU通用计算算力+AI算力方面,飞腾的Xiaomi微架构似乎在很早之前就已经预留了这方面的接口。
聊聊自研的飞腾CPU
虽然窦强在本次大会上并未特别去谈飞腾CPU在技术层面的架构自研,但我们仍然期望就这部分多谈两句,毕竟飞腾CPU能够很大程度上代表国产CPU产品。
“自主可控”和技术上的自研,不仅能够更大程度预防政治环境变化导致的技术“卡脖子”,而且与国家信息安全也息息相关——毕竟逆向工程和测试其实也很难解析出,设计到制造流程,是否在某个环节被人在芯片上植入了后门。去年12月,飞腾生态合作伙伴大会上,飞腾发布了PSPA1.0标准,这是飞腾定义的处理器安全架构标准——这是国内首个CPU层面的安全架构标准,从CPU层面实现国产计算机系统“自底向上的本质安全”。
这个标准的内涵如上图所示。在芯片设计层面,这套标准要求集成安全相关功能模块,包括加入商密、国密等算法加速引擎;提升芯片安全特性,包括密钥管理、生命周期管理、抗攻击、自检等。而在更高的系统解决方案层面,要求构建主动免疫可信计算平台,内生免疫反腐败子系统。上层,还是需要合作伙伴的共同支持的。
除此之外,很多人更关心的可能是提供算力的飞腾CPU产品本身。前文多次提到不同应用场景中底层硬件基础的FT-2000+/64处理器。这颗处理器是2017年3月,飞腾推出的第二代64核处理器芯片。FT-2000+是针对更早FT-2000整机成本偏高的一款优化升级产品,提升主频但去掉了L3 cache,升级DDR4(S2500的L3 cache似乎又回来了)。似乎IPC相比FT2000略有不及,不过成本的确下降了。
这颗处理器集成了64个自主开发的ARMv8指令集兼容处理器内核FTC662(Xiaomi);工作主频2.2GHz-2.4GHz;32MB L2 Cache;内置8个DDR4存储控制器,33个PCIe 3接口;典型功耗100W,16nm工艺制程。
如果要说哪里能够体现“自主开发”:从更早FTC660的公开信息来看,飞腾所用的Xiaomi微架构和ARM一些所谓“公版”的IP核(典型如Cortex-A系列微架构)差异还是比较大的,包括通过2D mesh网络连接核心与缓存(Hawk),每4个核心共享2MB L2 cache——若将此算作一个模块,则每两个这样的模块构成一个panel,额外会有routing cell和DCU(directory control units)单元。
总共8个这样的panel,每个panel 8个核心,也就构成了64核处理器。核心周围有专用的扩展接口,名为LIU(Logical Interface Units,逻辑接口单元)。LIU连接CMC(cache and memory chip,缓存与内存芯片单元,包含内存控制器和cache接口)。每个panel的routing cell单元将CMC连接到DCU,并且抵达L2 cache和Xiaomi核心。FT2000/64的CMC连接了总共16MB L3 cache(外加2MB EEC数据清理)。
不知去掉了L3 cache的FT2000+是如何修改这部分结构的。毕竟LIU其实还是相对多功能的专用组成部分,应该可以连接加速器。而其互联结构现在看来也仍有扩展的空间。这可能也是飞腾实现生态扩充的基础之一。
可顺带一提的是,去年9月,飞腾推出了FT-2000/4桌面处理器,规格包括4个FTC663核心,兼容64位ARMv8指令集,16nm制程,主频最高3.0GHz,最大功耗10W。从飞腾自己公布的SPEC2006跑分成绩来看(FT-2000/4全芯片实测整数计算得分61.1,浮点计算得分62.5,相比FT-1500A/4提升近1倍,访存带宽提升3倍),FTC663核心主体上应该是核心、工艺、主频的提升,对比更早的FTC66X版本,IPC提升幅度相对有限。
如前文所述,飞腾应该是国产CPU制造商中,唯一一个覆盖了高性能计算、桌面,到嵌入式领域的企业,而且CPU是自研核心(而且中途还面临一次从SPARC指令集的转舵)。这是多年技术积累的成果,也是实现飞腾“自主可控”生态的基础,以这两年飞腾生态合作伙伴数量的增加来看,配合新基建的浪潮,飞腾的“芯”生态如今正以前所未有的发展速度向前迈进。
责编:Luffy Liu