感觉Imagination Technologies(以下简称Imagination)如今的主场的确是来到了中国,这两年比较重要的发布会都选在中国本土召开。比如上周末Imagination在上海召开发布会,发布IMG CXT——这是Imagination旗下C系列的GPU IP产品。前年《电子工程专辑》详细介绍过其A系列GPU架构——就架构层面来看,可认为是移动GPU的一次重要飞越。
这次发布会的一个重头戏是PowerVR Photon光线追踪架构,Imagination将Photon光追架构加到了C系列GPU IP之上。Imagination对于光追技术的投入,在移动领域应该算是移动GPU IP产品中最早的,此前我们也特别报道过——有关什么是光线追踪,及其主流硬件实现,本文不再赘述,感兴趣的读者可移步了解。总的来说,光追被业界一致认为是图形计算的必备技术,它能在虚拟图形世界,令画面对象之间实现更为真实的光影关系。
当然我们现在说的光线追踪都是指实时光线追踪,毕竟非实时的光追早就在动画电影之类的领域普及开了。这两年实时光追在图形计算领域被提得非常多,但因为贪婪的硬件资源需求,这项特性始终未能进入到移动设备上。Imagination表示,这次发布的IMG CXT是“首次在移动IP上实现了桌面级质量的光线追踪视觉效果”,而且“已经在多个市场上进行了授权”。
另一方面,在市场规划上,Imagination将Photon定位在移动、游戏、AR、桌面、数据中心、云和汽车等场景——Imagination的GPU IP近几代的规划都能通过架构的弹性扩展来覆盖低功耗到高性能计算领域。当然,我们认为移动仍然是其主场。
我们认为IMG CXT以及PowerVR Photon都是非常重要的技术发布,甚至可能在图形计算领域具有颠覆性。原则上,我们应当对其做详尽的技术解析。鉴于近期活动排程之多,我们无法对这两者做完整的解析。本文仅作为本次发布会的报道,对两者做简单的介绍。后续我们将单独撰文来探讨Photon光追架构。这里推荐感兴趣的同学阅读Imagination官方已发布的两篇paper:
1.The Six Levels of Ray Tracing Acceleration
2.Introduction to the PowerVR Photon Architecture
新发布的GPU IP产品:IMG CXT
先从较高层级来谈谈这次新发布的GPU IP:IMG CXT。Imagination中国区董事长白农在发言中提到,IMG CXT(-48-1536 RT3)“是Imagination全新C系列GPU中的第一款产品”。回顾Imagination的GPU IP产品命名方式,在2019年之前还是用数字来命名的;2019年以后,A系列、B系列、C系列接踵而至。
Imagination技术前瞻副总裁Kristof Beets说:“A系列GPU IP产品对我们来说是技术上的飞跃,它帮助我们达成了更高的算力密度以及更低的功耗——A系列对于渲染引擎带来的提升是巨大的,奠定了非常好的基础。”
“B系列GPU IP则让我们得以进入传统市场之外的部分——我们传统市场包括消费端电子产品,如移动端、娱乐设备、车载GPU等。B系列多核叠加的方式,令其扩展到了其他平台,如PC、笔记本电脑、云计算、云游戏相关的产业。”
“今天发布的C系列GPU IP,因为光线追踪技术的引入,让GPU效率能够得到进一步的提升。”Kristof表示,“我们推出C系列GPU IP的主要原因,是希望通过专用的、高效的光线追踪的硬件组成,来帮助原有的GPU核心进行工作负载的分流。”
Imagination中国区战略市场与生态副总时昕博士也说:“在B系列的基础上,我们进行C系列的开发,带来更高的性能、能效比。今天发布的光线追踪架构也会随着C系列一起提供给客户。”
从Imagination的产品发布来看,Photon光追架构应该是可以单独于C系列存在的。比如Photon光追架构似乎也可以和B系列搭配;当然C系列的亮点就在于与Photon的搭配。另外,从A、B、C系列的演进来看,大方向是为GPU增加更多专用模块的过程。这可能也是当代GPU发展的整体趋势,毕竟可编程计算单元堆料可获得的性能进化还是存在边际递减效应。
这次发布会上,除了光追以外,Imagination并没有花较多篇幅谈C系列架构的其他进化。Imagination在新闻稿中提到,IMG CXT-48-1536 RT3内核具有3个RAC(光线追踪集群),可提供1.3GRay/s的性能——这一点还将在下文谈Photon光追架构时详述。“即使在移动设备低功耗的情况下,也能以1080P分辨率实现30~60FPS的实时光线追踪渲染,满足日常游戏高端需求。”这是个比较模糊的说法。
与此同时,CXT在光栅化图形处理性能方面与上一代相比,“其计算、纹理和几何性能都提高了50%”;“它的低功耗超标量(superscalar)架构可在低时钟频率下提供高性能,从而实现卓越的帧率功耗比(FPS/W)效率”;“同时Imagination图像压缩(IMGIC)技术可以大幅降低带宽需求。”
Imagination官网提到IMG CXT的主要提升如上图所示。每个核心FP32算力1.5TFLOPS(注意“核心”的定义,后文将会提到;并不是指一个USC,或者一个shader核)。时昕博士补充说:“每秒钟可以做48G的像素、纹理运算;每秒钟可以计算13亿条光线的折射反射。还有一个概念就是每秒钟可以做48G的BoxTest。做AI定点运算每秒可以达到6TOPS。”
将多个IMG CXT做叠加,则更大规模的GPU可以扩展到PC、数据中心、云市场。“可以实现高达9 TFLOPS(每秒万亿次浮点运算)的FP32光栅化性能和超过7.8 GRay/s的光线追踪性能。”
光线追踪实现的6个等级
我们知道Imagination做光线追踪技术已经有些年头了。时昕博士也在介绍中谈到:“Imagination在光线追踪方面大概有10年左右的历史了。2014年就有一颗测试芯片回来——当时这颗芯片是用28nm工艺去做的。功耗达到了个位数。当时光线追踪的硬件是跟我们的Plato平台放在一起的。”
不过“当时整个生态可能还没有准备好。当时的图形API标准也没有关于光线追踪的东西,包括相关的开发工具软件、游戏引擎等也没有光线追踪的功能。从2021年开始,我们看到整个业界生态都开始投入。我们认为这个时候是我们和合作伙伴一起推出具有光线追踪功能的芯片的时机已经到来了。”时昕博士说。
在谈Photon之前,有必要说说Imagination对于光线追踪加速的“分级”。Imagination将光线追踪的GPU硬件实现分成了6个级别,从Level 0到Level 5,如上图所示。建议阅读文首给出的第一篇paper。
简单来说,Level 0是指早年的一些探索:碎片化的光追实现,包括Intel Embree、Caustic OpenRL都是其中的例子。鉴于彼时生态的碎片化,这样的API很难得到推广和普及。当时有些方案甚至是提供完整的渲染引擎给开发者,这对实时光追生态的建立也是更加不利的。对于非实时的光追效果、某些专业视觉领域应用而言,这类方案还是有价值的。应该说,尤其对游戏、AR/VR之类的生态而言这种方案是不现实的。标准化才是游戏与某些专业视觉开发的必由之路。
Level 1则是传统GPU上的软件式实现方案。纯软件实现光线追踪的代价自然就是算力、带宽、功耗,以及画质了。
从Level 2起,在Imagination的定义中就已经开始加入面向光追的专用硬件单元了。其实从软件实现方案打下基础以后,大方向的光追走什么样的流程已经比较清楚了,包括ray-box和ray-triangle相交的处理问题。那么将原本可编程的通用单元,以固定单元的方式放在GPU里面,就能极大提升效率。这个阶段应该就是Imagination在2014年之时提出的。固定功能实现,可以新指令的方式放在shader程序中。时昕博士说,从Level 1到Level 2,“加上硬件,会有数十倍的提升”。
后面的Level 3、Level 4、Level 5实际上是固定功能硬件单元的进一步加强。比如Level 3是BVH(Bouding Volume Hierarchy,层次包围体)加速的硬件实现。“从Level 2到Level 3,把光线遍历、追踪和监控算法通过专用硬件来实现,效果又有了几倍提升。”时昕博士表示。如果按照Imagination的分级来看,当前包括英伟达、AMD等的光追实现,应该都在这个层面上,此前的文章中我们也都谈到过。
而Imagination定义的Level 4是在硬件实现上给BVH处理多加了所谓的“Coherency Sorting”。这是考虑到现实世界中,不同材质对于光线的反射特性、方向是不同的。光线穿过BVH盒子就会有不同的路径,这就需要更为频繁的内存访问了。而且光线不同路径的走向也会和不同的三角形相交,这也会加重shader执行的工作量。
这种不确定性对于GPU这样高度并行工作的硬件而言是不利的。Imagination提出具有相关性(或者一致性,coherent)的光线做分组(sorting),如上图所示。对某些材质反射的同方向光线可以做分组,这样一来可以实现更高的cache命中和数据复用率,也提高了并行ALU管线利用率。所以关键在于找到“相关性”。一般现在的移动GPU,会将其与tile-based渲染做结合,在tile分组以后,让每个三角形的像素,以相关像素群组的方式做处理。处理过程都放在片内进行即可,也就不需要去频繁访问外部存储了,降低带宽需求和功耗。
时昕博士表示:“到Level 4的时候,我们有10亿条光线——真实场景里的光线以平行光为主,太阳光都是平行光。10亿条光线不需要一条一条去算,我们将其分成一组一组去算。分组后,计算效率又能提升很多倍。分组的一致性(即coherency)检测通过硬件去做。我们有个专业名词定义,叫‘簇化’,这是Level 4的应用。”
Level 5则是在Level 4的基础上,增加硬件级的Scene Hierarchy Generator,主要是相关于BVH本身的生成加速的。因为篇幅关系,此处不再详述。
简单谈谈PowerVR Photon光追架构
Imagination表示,其Photon光追(CXT)是“业界首款RTLS 4级光线追踪架构”,“全球第一个做到L4的硬件处理,而且是在移动端——当然也可以在PC和数据中心实现”。与此同时,“功耗比现有的RTLS 2/3级解决方案高2.5倍”。我们认为,从光追尚未真正标准化的角度来看,自己定一个标准,然后自己说自己在某个等级还是挺奇怪的。
不过从Imagination Level 0到Level 5的划分来看,尤其是Level 2-Level 5其实也能看出光追技术的硬件优化方向——一路在提升光追的效率方面前行,这个大方向应当是十分正确的。虽然在具体实现上,可能还需要观察业界的其他参与者(如英伟达)准备怎么做。
那么具体到Imagination的PowerVR Photon架构,Imagination将加入到GPU中的这种加速单元称作RAC(Ray Acceleration Cluster,光线追踪集群;可以这么理解:RAC单元是基于Photon架构的)。流程包含从发射一条光线(从shader/kernel),到把命中或未命中结果返回到ALU做处理。
RAC在构成上的核心组成包括了Ray Testing Units、Hardware BVH Walking;当然加速结构中,还有前面提到的分析相关性光线的Packet Coherency Gather(这里的Packet可理解为分组的意思;Imagination似乎对其中文译法叫相干性聚集器…)。
其中Ray Testing Units光线测试单元,处理海量的相交测试。Imagination表示,做大量光线与hierarchical box结构相交运算,RAC以专用硬件的方式offload原本属于USC的工作,实现芯片面积和功耗的节约(USC是指Unified Shading Cluster,是早年Imagination对于GPU核心的定义,每一个USC包括了很多传统意义上的shader核心——但本文提到的核心并不是指USC)。Imagination在宣传中提到,相比达成相同功能的USC模块,这类固定功能加速单元可以让对应的芯片面积减小44倍。
Hardware BVH Walking部分,是追踪通过BVH的每条光线的递归过程。这部分的硬件实现包括了专门的ray ram storage(应当就是前面图中的Ray Store,即某种片内存储)和多个scheuling调度引擎(Ray Task Scheduler)。
Packet Coherency Gather当然就是前文提到Level 4的关键所在了。这部分硬件单元负责分析所有光线,构建相关光线(coherent rays,也就是相似轨迹路径的光线)的分组。如前所述,通过测试和处理这些相关光线,能够实现更高的处理效率。
从这套方案,以及Imagination本身的TBDR架构来看,或许移动平台会更适用IMG CXT(但或许也不尽然,苹果的GPU现在不就用在了MacBook Pro 16”移动工作站上么)。前文已经提到,Imagination对IMG CXT的定位也不仅限于移动平台。如前文所述,IMG CXT GPU多核(4个CXT RT3)弹性扩展可达成9 TFLOPS的FP32性能,与7.8Gray/s光追性能。Imagination表示“相比市场上现有解决方案,让笔记本、桌面与云游戏解决方案,实现最高2.5倍的光线追踪效率提升”。
时昕博士提到:“RAC由专门的硬件组成。和传统的B系列、C系列模块放在一起,可以组成具备光线追踪能力的GPU。针对桌面级,如果要做4K分辨率,CXT架构支持多核实现更高的性能。4核最多可以达到7.8Gray/s。同时还可以选择NNA(神经网络加速器)单元去做降噪处理,GPU可以拿更多的资源去做图形相关的渲染计算。”
最后来谈谈生态和市场。IP或硬件层面的实现,Imagination应当已经准备就绪。真正的难点在于生态构建上。我们在采访中询问Imagination有关于当前其GPU IP在高端移动平台方面真正转化为芯片的问题。Imagination回应打造IP以及最终发布芯片产品之间是需要一定时间的,“我们很快应当就会看到首颗B系列的芯片问世。”
“在高性能平台上,我们已公开宣布Innosilicon(芯动科技)将成为合作伙伴,采用多核BTX配置;除此之外,也还有更多合作伙伴会将我们的高端设计付诸实现。”
至于这次发布的CTX产品,Kristof表示:“这款带有光线追踪功能的CXT授权已经给到分布在全球多个国家的好几个客户。但目前我们无法透露是哪些客户。”“通常从IP授权到集成到SoC,到流片、进入平台、推向市场,整个周期需要18-24个月。今年给IP授权,他们的最终产品应该是2023年能够上市。”意即消费用户体验到光线追踪是在2023年。
在软件工具方面,时昕博士谈到:“仅有硬件是不够的,我们也开发了软件工具:可以查看每秒的光线数、测试的负载。还有个软件开发套装,给内容开发者使用。它能达到的效果,就类似于将来跑在PowerVR上,可以模拟出这个效果来。”
Kristof在答记者问时说:“现在市场上已经出现了一些光线追踪技术趋于标准化、统一化的趋势。比如说Windows下面有一项技术,我们也跟他们有相应技术上的匹配。主要目的是为了让我们的技术能够有更好的兼容性和可用性,让开发者能够利用我们的技术来开发出相应的光线追踪的应用。标准化方面,我们也大量参与了微软的沟通和讨论。”有关PowerVR Photon架构的完整开发生态,后续我们会再做关注。
另外,虽然芯片设计厂商的名字无法透露,这次为新GPU IP站台的内容厂商倒是不少。时昕博士说:“光线追踪要获得成功,光靠我们一家公司是不行的。”…“我们跟国际很多生态伙伴一起共同合作。包括在游戏方面,我们跟完美世界、腾讯、网易等知名企业有深度合作。还有许多中小厂商也有深度合作。”在Imagination提到的“行业反馈”中,完美世界、腾讯游戏、网易游戏等都给出了相对正面的评价。
其中腾讯游戏引擎技术副总监魏楠提到,“腾讯游戏将与Imagination展开密切合作并探索该技术在游戏领域的应用。”似乎光线追踪这个制高点是其他GPU IP供应商也在追逐的,前不久联发科在发布会上提到对于光线追踪技术的布局,以及和Arm、腾讯等方面的合作。这一局的战役看起来很快也要打响了。
Imagination副总裁及中国区总经理刘国军在开场时提到:“2020年我们的营业收入是1.25亿美元,这是近几年的高峰。2021年我们将会达到另一个高峰。”…“行业给我们带来了机会,过去两三年,我们成长很快。”“我们作为基础技术提供者,有30%以上的成长,速度是很快的。”光线追踪对Imagination而言同样是非常重要的发展机遇,或许也是夺回当年在手机行业制高地的重要契机——这一局实在不容小觑。
责编:Luffy Liu