今年参与滴水湖中国RISC-V产业论坛(以下简称滴水湖论坛)主题演讲的企业,选择HPC赛道的已经有不少。去年的滴水湖论坛圆桌环节,嘉宾还在讨论RISC-V芯片首先会在哪些嵌入式应用上起量,以及RISC-V指令集进入HPC的可能性。今年圆桌投票的话题就变成了RISC-V要进入高端应用,汽车电子和数据中心哪个更容易落地。
其实在论坛外的展区,算能就摆出了自家的64位多核服务器CPU SG2042,更不用提整场论坛首个演讲的企业就是基于RISC-V做AI HPC的香饽饽Tenstorrent。这一年是能够看出RISC-V生态的演进和显著变化的。
算能RISC-V 64位多核服务器CPU SG2042
戴伟民(中国RISC-V产业联盟理事长,芯原股份创始人、董事长兼总裁)给了一些数据和例证,比如说此前我们也报道过的Ventana公司宣布推出全球首款数据中心级RISC-V处理器——当时Ventana宣传中提到Veyron VT1的每核性能可比肩Arm Neoverse V系列(亚马逊Graviton3和英伟达Grace分别基于Neoverse V1和V2);
再比如Tenstorrent高性能RISC-V CPU,基于Ascalon核心的处理器,在SPECint2K17性能上是比肩Intel最新的Sapphire Rapids(四代至强)和AMD Zen 4(Genoa)的。这就让我们好奇,RISC-V为什么能走得这么快,短短数载就已经从嵌入式应用,跃迁到HPC应用了。
RISC-V进驻HPC的原因一
Ark Investment此前的预测数据可能很多读者都见过了:Arm和RISC-V在云业务领域会取代当前主流的x86架构。他们认为Arm + RISC-V的组合所占据的服务器市场份额将从2020年的0,增加到2030年的71%。其实在去年的滴水湖论坛上,戴伟民也援引过这份数据。我们认为这一数字是过于激进的。不过该预测至少从侧面说明了RISC-V的价值。
我们这里探讨的HPC,是将范围窄化到数据中心的,不包含PC、工作站和更多桌面应用。这主要是因为像PC这样的应用,对生态和体验完善度要求极高,且此类应用的生态构建壁垒也高,并不是单纯拼性能、能效。
前不久电子工程专辑发布的《2023年TOP50国产处理器厂商调研与市场分析报告》就提过,我们认为RISC-V在这一市场的大规模应用希望渺茫,因为就连Arm得到主流操作系统与OEM厂商助力的情况下,耕耘多年也未见市场起色;虽然可能在创信一类的小众桌面市场大概会有小范围应用。
但数据中心市场的情况就大不一样了。数据中心不同类别的应用,如果泛化到网络设备,则基于应用的类别相对集中,后来者是有更大的机会获得市场的。解决软件栈的其中一两个应用市场和生态系统,就有机会把自家不同架构的处理器产品做起来。
练维汉(Tenstorrent首席CPU架构师)在滴水湖论坛圆桌环节上反复强调两个词,一是specialization——可以理解为市场的专门化;二是differentiation——芯片产品的差异化。这两者某种程度上可以理解为当代芯片的一体两面。
圆桌论坛上,观众正就RISC-V高端应用,汽车电子与服务器哪个更容易落地投票
所谓的专门、专用,在我们的理解里就是该市场的应用、软件生态相对集中,不像PC或手机那么分散和多样。虽然圆桌上,陆吉年(厦门算能科技有限公司产品总监)很谦虚地说,算能之所以规划基于RISC-V的数据中心CPU,是因为现阶段这是“还没什么人做的东西”,算能也“有能力通过技术去解决实际问题”;但实际上,今年滴水湖论坛更多出现数据中心、汽车这样的应用,就是基于这两类应用是典型的specialization特性。
“以某些国家实验室的HPC系统为例,其实这些国家实验室跑的应用就那么几个。软件生态系统并不需要做太大改变。”练维汉在圆桌上说,“Amazon Graviton也是这样,客户只需要几个工程师,就能把软件移植过去。客户就需要那几个应用,这就是很好的应用场景。”
练维汉形容亚马逊Graviton“是个非常specialized case”,“就为了达成明确的目标。这个市场非常专注,量足够大,有经济效益,比AMD、Intel现成的芯片更能解决问题。”虽然Gravition基于Arm指令集,但在取代x86的问题上是一样的。
“找到特别的应用,找到最少的软件改变,有很好的应用场景,有功能、价钱上的优势,这就是可以切入的方向。”基于此,“汽车也是比较能够切入的生态系统。”“未来的汽车一定是specialized的。”
RISC-V进驻HPC的原因二
而在芯片“差异化”(differentiation)的问题上,体现的就是RISC-V开源造就的灵活性了。在我们看来,对于Tenstorrent的AI芯片及对应的companion CPU而言,RISC-V几乎是他们的不二之选。
因为就像练维汉所说的,Tenstorrent期望做的是以统一的架构,通过弹性缩放的方式,覆盖从嵌入到服务器不同需求的应用——除了AI加速器的弹性缩放,这要求CPU自身具备足够的灵活性。x86和Arm首先就会被排除,x86本身就是不开放的,至于Arm——去年的RISC-V Summit上,练维汉就提过,在他最初加入Tenstorrent之时,准备给ML加速器的companion CPU做评估,去询问Arm能否支持某种特定的数据类型,Arm答复不行。据说Arm的这类支持需要2年时间的内部讨论,及与合作伙伴的磋商。
那么很自然的,RISC-V的灵活性令其成为最终选择。再以汽车为例,“现在汽车公司的竞争,比的是电子系统——必须要做specialization,做差异化。未来的汽车一定是specialized的。” “唯一的选择就是RISC-V,因为可以做定制化,做出你想要的东西,才能卖好价钱。”即便车规有其自身的难度,且开发周期长,但“做这方面的东西一定有市场”。
现场听起来还挺有趣的一个例子是清华大学所做的研究。何虎(清华大学集成电路学院副教授、博士生导师,上海清华国际创新中心副主任)说RISC-V的开源特性,用于研究计算机体系结构是很好的选择。“最近这几年,我们不仅做RISC-V CPU研究,我们也投入了不少力量做RISC-V GPGPU(通用GPU)的设计。”
“基于RISC-V标量和矢量指令,实现高性能GPGPU。”何虎说,“这需要指令流控制、指令启动、寄存器堆扩展、特殊load/store指令,把CPU指令变成GPU架构指令,完全实现RISC-V指令集基础上的GPGPU指令集架构。”
“基于OpenCL并行编程语言开发,不需要做vector方面的优化,实现GPGPU支持,底层实现就是RISC-V的vector指令集。适配到了RISC-V的兼容性,RISC-V的编译器、生态都用得上。”何虎表示,“我们正在推动成立开源社区,吸引广大用户的参与。”
这个例子虽然并不能表明RISC-V于HPC应用生态壮大的趋势,但却是个听起来挺有趣的例子,而且也事实上表达了RISC-V的灵活性。即便可能方向上是不同的。
另外,有关灵活性的问题,还有一点是值得补充的。配合芯片发展方向的chiplet,像Ventana、Tenstorrent这样的企业应当是开启了新的业务模式的。Ventana面向客户提供的就是计算chiplet,而非整颗芯片。这对下游客户造成差异化是很有价值的,客户只需要专注在开发加速器,而不需要在CPU上重复造轮子。
在不同层级的灵活性上,RISC-V和chiplet、先进封装、异构集成又有着天然的适配。Chiplet与RISC-V的搭配,甚至有可能变革半导体行业中IP授权模式,让IP供应商在产业链上扮演的角色发生变化。
RISC-V进驻HPC的原因三
最后一个推动因素,应该考虑半导体行业的区域化(localization)和地缘政治问题。新冠疫情的来袭,以及全球各地的局部摩擦,供应链的时断时续,都让不同国家地区,以及企业开始重新审视,过往对半导体供应链全球化的判断是否准确。
“RISC-V是开放的生态系统,不会受到约束,所以整个生态进步得非常快。”练维汉谈到,“而2019年RISC-V出现飞跃式发展。疫情之前,大家都以为全球产业链是不会破裂的。但疫情影响到了半导体产业链。”
于是更多的国家、地区和人开始思考,要摆脱被掌控,如此“生态也就成长得非常快”,这是“客观环境”促成的。
我们在此前的报告中提过,RISC-V在这个时间点风行,既与电子产业技术与市场发展特性强相关——即差异化、专有化需求的加强,及表现出异构集成、chiplet和RISC-V的并行、相互促进的发展方式;也与全球大环境强相关,更多表现为“自主可控”需求——当然这个自主可控未必是国家层面的。
RISC-V软件生态发展情况
最后稍微谈谈RISC-V当前的软件开发生态建设情况。毕竟这才是真切反映RISC-V发展阶段的根本——虽说前文一直在说,RISC-V现阶段攻入的都是一些偏专用的市场。
过去一个月,我们参加了Intel好几个业务部门的媒体活动。Intel现在会更积极地对外去谈自家的软件——这几次活动都不约而同地提到了RISE(RISC-V Software Ecosystem)。因为Intel也是RISE社区的一员,而且给出了包括compiler在内的很多软件方案。
目前RISE生态系统成员有13家企业。这个项目“旨在加速RISC-V新架构的软件生态建设及应用商业化进程”,“成员将联合推动RISC-V处理器在移动通信、数据中心、边缘计算及自动驾驶等领域的市场化落地”。或许RISE项目发起本身,也可以视为RISC-V快速入驻HPC应用的原因。
傅炜(红帽软件(北京)有限公司首席软件工程师)评价RISE是RISC-V世界的Linaro:“RISE这个组织,红帽也参与其中。这就相当于10多年前的Linaro。”对Arm生态构建过程熟悉的读者,对Linaro必然是不陌生的——这是2010年,Arm、飞思卡尔、IBM、三星等企业联合设立的组织,专为当时的Arm提供开源软件支持。
Linaro为Arm打造的开发板也相当知名。似乎这两年的RISC-V活动上,Linaro总会被有意无意地提起。RISE的发起,显然是借鉴了Arm生态发展的这一先例。“生态组织对于软件发展至关重要,我们需要这样的组织。”傅炜说。
“其实在2018、2019年的时候,RISC-V International讨论过这个问题,我当时也在会议上。但因为那时候连硬件IP都还没有到位,也没有服务器芯片、没有IoT芯片,很难谈得上在上面做什么软件。”傅炜谈到,“现在就是相当好的时机,软件、硬件都有了,那么就可以有这样的组织。”
“今天我们看到算能的服务器(芯片和开发板)。其实在此之前生态、产业都不具备这样的条件。Fedora一直没有把这个合并到主线,因为以前(RISC-V生态)没有服务器,现在有了。”算能在活动展区,除了展示SG2042,还展示了Milk-V Pioneer开发者工作站。现场工作人员告诉我们“个人可以用这台工作站实现一键开发,完成适配工作”。
加上这次展示的Milk-V Pioneer开发板,RISC-V目前的开发板生态正逐步走向完善。似乎仅是Milk-V就做了不少板子,包括交换机的(Vega-FSL1030M——芯来)、小尺寸单板计算机(Mars——赛昉, Meles——平头哥)、低成本紧凑型的Duo等等。傅炜也在PPT上展示了当前Milk-V Pioneer的RISC-V桌面和服务器应用支持情况,他说“软件生态已经比较完整。只不过这些软件还是基础,仍然需要工程师去努力”。
RISE在此之所以重要,就是因为“不同的公司自己单独去做,可能只是在重复造轮子”,基于现有基础去吸引开发者做进一步的开发,是这个生态得以进步的基石。即便圆桌现场,就开源社区是否应该采用区域化,或全球统一管理的问题,大家都有不同意见,但基于这种细节问题的探讨其实已经表明RISC-V软件生态,于更多领域走向成熟了。
最后的最后,提一个RISC-V生态发展的外在表现细节。去年滴水湖论坛上,戴伟民说“这一届我们做两件事,第一要解决专利相关问题,第二要解决碎片化软件生态问题”——虽然第二个问题的现状我们并不十分清楚;但在专利问题上,今年的滴水湖论坛,RISC-V专利联盟就启动了——这也是对当初Linux生态的借鉴。参与联盟的企业“RISC-V之间互相不侵犯,互相不告,这很重要,包括一些专利的共享。”虽然戴伟民说,“具体的细节我们还要继续研究”,但“今天是个开始”。
本世纪初,微软意识到Linux成为竞争威胁,很快尝试利用其4500项专利打压Linux。随着Linux成员的抱团,最终微软宣布了合作,加入到OIN(Open Invention Network),与OIN成员达成专利交叉许可,消除与OIN成员的专利诉讼;与此同时微软免费许可其全部专利组合给OIN成员,包括6万专利。戴伟民说,于RISC-V生态,“我们在重复这件事。”这也是RISC-V向前迈进的写照。