了解半导体的同学,基于一款产品的公开参数基本上就能做性能预估。比如NVIDIA在前不久CES上发布的GeForce RTX 5080显卡:从已公开的高抽象层级信息,可以先大致猜猜这代RTX 5080会有多大提升——尤其和RTX 4080 SUPER相比。
RTX 5080所用的这片代号GB203的die,晶体管数量456亿,尺寸378mm²;而上代RTX 4080 SUPER/4080的AD103,晶体管数量459亿,尺寸379mm²。基于这则物理信息,基本能推断,RTX 5080相比RTX 4080 SUPER可能不会有太多提升;或者说在制造工艺、晶体管用料都基本没什么变化的情况下,要实现性能提升,就只能靠架构及软件改进。
![](https://www.eet-china.com/images/ad.png)
再看一个相关图形渲染的关键参数:非Tensor Core的通用算力单元FP32/FP16理论峰值算力,RTX 5080标称56.3 TFLOPS;RTX 4080 SUPER标称52.2 TFLOPS。这两个值的差距就只有8%不到。那么在上手这两款显卡之前,基本能猜到,传统意义上两者的图形渲染算力差别不会很大,毕竟物理限制就在那里。
看一看这两张卡(NVIDIA GeForce RTX 5090 Founders Edition, 铭瑄GeForce RTX 4080 SUPER iCraft OC16G)的3DMark图形渲染实测跑分,情况比预想中稍微乐观些:这几项测试提升幅度取平均在15%上下(7.1%-21.5%)。
本文不打算对RTX Blackwell架构做深入探讨,包括新的SM, TPC, GPC组织方式,SM特别针对Neural Shaders所做的设计、SER(shader执行重排序)能力加强等…但毫无疑问,这是架构层面改良+存储与通信性能加强(GDDR7, PCIe Gen 5等),所能达成的综合性能提升水平。
实际上,我们过去两年一直在说,这种情况会在半导体发展史的未来很长一段时间内成为常态——而不是老黄愿不愿意下本钱或刀功如何的问题;因为摩尔定律不再,半导体制造成本大幅攀升,趋势使然。那是不是以后游戏和专业视觉图形卡就这样了呢?
半导体行业这两年不是明明白白有DSA, AI, 加速计算, 异构集成, chiplet, 先进封装之类的趋势吗?NVIDIA基本上每一项都沾了。而GeForce RTX游戏显卡目前已经点上的技能点包括有DSA(Tensor Core)、AI与加速计算(CUDA及其上的中间件与库)。所以本次针对GeForce RTX 5080的体验,会把重点放在AI上。
RTX 5080 VS RTX 4080 SUPER:性能释放及效率差异
本次显卡体验沿用了前两个月测试Intel Arrow Lake台式机处理器搭建的硬件平台——此前的体验文章也已经对该平台的性能释放、供电和散热上限做过简单探讨,本文不做赘述。这应该算是个比较主流的配置方案,虽然各部件都不算拔尖。
重点还是先看看这两块显卡的性能释放及持续性能发挥水平。通常先厘清一个系统的高抽象层级概况,有利于事先做相对靠谱的测试预期——文首的配置参数罗列也是其中一部分,以便在出现偏离值较高的测试结果时,可做进一步的探讨。
GeForce RTX 5080公版卡的标称TGP为360W;而拉来与之对比、来自铭瑄的GeForce RTX 4080 SUPER标定TGP 340W,官超过后比NVIDIA官方推荐值多出了20W。
从FurMark的10分钟图形渲染稳定性压力测试来看,这两张卡的确是按照其标称值于4K甜甜圈压力测试全程稳稳地走在TGP上限;RTX 5080公版卡的GPU封装温度稳定在77℃(室温20℃左右),铭瑄RTX 4080 SUPER则在72℃上下。
听闻此次RTX 50系公版卡的板级系统设计和散热方案堪称一绝:虽然RTX 5080公版卡应该没有像RTX 5090那样用上液金和3DVC;但在比铭瑄RTX 4080 SUPER少个风扇、小了一圈,还轻了不少的情况下,给出更高功率预算,还兼顾了颜值,板卡厂商是不是该感到汗颜…
前两年的ISC大会上,NVIDIA就提过内部已经把AI用到了CFD流体力学模拟上,用于辅助、优化散热器的设计……还真是无处不体现AI的价值。
值得一提的是,4K FurMark压力测试过程中RTX 5080公版卡得到平均帧169fps;铭瑄RTX 4080 SUPER成绩为144fps。粗略算一下跑该测试的效率,前者比后者高出约10%+。针对效率,可以更进一步通过观察3DMark Steel Nomad图形渲染测试期间的功耗水平来验证:
两块显卡跑该测试的平均功耗都在325W左右,基于其性能差距20%上下及FurMark测试数据,至少可以认为,双方图形渲染能效差距覆盖了10-20%这一区间。在没换制造工艺的前提下,提升原生渲染能力的效率——尤其考虑Blackwell的升级重点也在AI方向上,这样的提升基本是可预期的。
需要补充的是,铭瑄GeForce RTX 4080 SUPER iCraft OC16G在整个RTX 4080 SUPER家族中算得上是个丐版卡。不过从3DMark官方数据和上述跑分来看,基于这张卡测得的成绩比市面所有基于RTX 4080 SUPER的系统平均性能水平高出约2%。也足见我们搭建的整个系统还是比较主流、更靠近实际体验的。
但正如文首提到的,non-Tensor Core堆出来的原生渲染性能不是本文关注的重点。
DLSS 4:是时候改改游戏观念了
这两年老黄在SIGGRAPH图形技术顶会上聊AI,ISC高性能计算顶会上聊AI,CES消费电子展上也聊AI,是不是感觉有那么点无所顾忌了?(SIGGRAPH搞图形的老学究们同意吗?...不过事实真就是,AI技术入侵到了方方面面;尤其对图形学领域的渗透,已经走向了全方位。
不信的话,可以看看《赛博朋克2077》游戏的画质选项中,已经开始让玩家自己选择是用CNN(卷积神经网络)还是Transformer网络了——这年头还真是玩个游戏,都得先搞明白AI技术领域的热词才行...
这一选项相关的DLSS技术,作为第一波真正实现了对图形渲染渗透的技术方案,已经走到了第4代。这项技术的核心理念,说穿了就是在3D渲染管线的末端,对2D影像做AI CV(计算机视觉)计算,借助AI把低分辨率的画面upscale为高分辨率,把动态影像较低的帧数补成高帧数。
似乎到现在为止,都还有不少玩家不认可这样的AI超分和帧生成技术,或者不将AI技术进步视作图形或游戏性能提升的一部分。我们从前两年就已经在倡导:对游戏而言,不要将AI视作某个附加特性,而应当将其视作游戏及图形学领域未来发展的基础要素。AI就和任何主流DirectX图形新特性一样,不应当被割裂出来看待。
因为摩尔定律的停滞,就决定了在传统图形单元上堆料、堆晶体管的时代已经结束了;再期盼靠堆图形单元的晶体管来数倍提升性能,可能要先做好一块显卡几万、十几万的准备,那是绝对不可持续的...
而且实际上,RTX Blackwell在图形渲染单元部分及更上层抽象的架构层面表现出刻意的与AI之间的配合:不管是这一代SM组织方式旨在适配后文会谈到的Neural Shaders,还是AMP(AI管理处理器)用于协调和调度AI和图形负载工作——尤其在DLSS 4的工作中发挥重要作用…图形与AI本身就已经越来越不可分割了。
DLSS 2做到了基于AI的画面超分,让GPU只需要以更低的分辨率渲染画面,就能以较低负载输出高分辨率影像;DLSS 3则开始支持帧生成(2x);DLSS 4启用了多帧生成(2x, 3x, 4x);
这是DLSS 4所处的时代背景。DLSS 4主要有两个技术要点:(1)将以前DLSS在用的CNN模型,换成效果更好的Transformer模型,尤其让AI参与生成的游戏画质得到进一步改善——虽然我们感觉,既有基于CNN模型生成的像素与帧,质量已经相当靠谱,起码在游戏过程中开启DLSS很难察觉异样…
(2)加入多帧生成(Multi Frame Generation)特性,也就是GPU现在在渲染帧之间可以由AI生成至多3个生成帧。在支持DLSS 4的游戏中,可以手动选择使用插一帧2x、插两帧3x、还是插三帧4x帧生成。
加上超分辨率,就有了老黄口中所说的,你看到的每16个像素,15个都是AI生成的,只有1个是渲染的。实际上还有第(3)点,为稳定管理生成多帧的显示时间,GPU硬件层面新增所谓的“Flip Metering”,解决DLSS 3帧生成基于CPU去做frame pacing存在不确定性的问题。
所以对于现在支持DLSS 4的游戏或图形渲染应用而言,这些由AI生成的像素与帧是经过总共5个AI模型推理才显示出来的。像是RTX 50系显卡实践DLSS 4多帧生成,就将上一代专用的光流加速器直接换成了神经网络——这倒是和Intel最近刚刚上马的XeSS-FG帧生成方法思路一致。
用RTX 5080对3款已经支持DLSS 4的游戏,在不同DLSS及画质设置下做个简单测试:
NVIDIA宣传所谓DLSS 4让游戏性能提升8倍,在《赛博朋克2077》4K分辨率+路径追踪全开时,就能体现出来:RTX 5080在这种情况下图形单元也只能渲染出20fps的帧率,在DLSS超分及4x帧生成的共同作用下,就能输出160fps的动态画面。
《心灵杀手2(Alan Wake 2)》是我们最近接触到的一款显卡杀手级游戏:在不开光线重建(Ray Reconstruction,DLSS技术的一部分)的情况下,4K分辨率+最高画质(路径追踪),即便是RTX 5080这样的高端卡,游戏帧率也会立刻降到个位数。4x帧生成,配合基于AI的光线重建和超分,就能将帧率提升到180fps的水平。
其中更多细节,后文会做展开。
粗看DLSS 4及其体验:多帧生成之外
如前所述,《赛博朋克2077》可由用户手动选择在超分(Super Resolution)特性上是用CNN模型还是Transformer模型。这就有机会观察,两种不同AI模型耗费的系统资源差异。故而尝试对《赛博朋克2077》这款游戏的DLSS 4特性,做更进一步的粗粒度观察——毕竟游戏体验不是光看帧数就行的。首先看看不同DLSS设置下的GPU功耗、显存占用率变化:
DLSS技术的本质,就芯片层面来看无非就是把原本图形渲染单元的工作,一大部分都交给AI单元去完成。从柱状图来看,把更多工作交给Tensor Core完成,提升帧数的同时,实现了较大程度的节能——尤其考虑曲线图展示出DLSS在显存资源上的节约,更能体现效率提升。
基于这两张图的数据统计,还能得出几个结论:
(1)DLSS 4 2x帧生成在画质提升的基础上,对于帧率的提升幅度高于DLSS 3;
(2)DLSS 4采用Transformer网络(特指超分特性实现)相比DLSS 3采用CNN网络,GPU芯片功耗略高,幅度有限;
(3)DLSS 4占用显存资源明显低于DLSS 3,在我们的测试中,相差至多1000MB显存(DLSS 4 2x VS DLSS 3);
(4)DLSS 4 4x多帧生成占用显存资源多于DLSS 4 2x,GPU芯片功耗变化不大;
(5)基于Transformer模型(超分特性)的DLSS,占用GPU芯片功耗和显存资源略大于基于CNN的DLSS;
这些都是符合直觉、也很容易复现的结论。另外,从前文中的DLSS 4游戏测试柱状图,不难发现和理解DLSS 4刚刚换用的Transformer模型相比CNN模型实现了更好的画质;在同为DLSS 4的情况下,帧率仅有些微降低(相比DLSS 3 CNN则更高)。有关“更好的画质”的问题,建议感兴趣的同学去看一看NVIDIA官网给出的动态对比,文章中的静态图呈现不够有说服力。
即便Transformer本身的自注意力机制明显更为现代也更复杂,但从帧数、功耗及显存占用率的差异,是能够看出NVIDIA在DLSS模型及算法进化上的努力的。这就是软件为硬件带来的巨大价值了,也是RTX 40系到RTX 50系升级的关键。
不过不同游戏在DLSS 4实现的模型选择上可能是存在差异的:比如现阶段我们体验到的测试版《霍格沃兹之遗》对于光线重建(Ray Reconstruction)特性选用了Transformer模型,而对超分(Super Resolution)继续用CNN…现在的DLSS,更像是个不同模块可由开发者任意搭配组合的工具。
对于DLSS 4多帧生成特性,需要多提一嘴:虽然它能显著提升游戏帧率,但从体验的角度来看,还是要GPU原生渲染帧率不低于30-40帧为佳。因为游戏不只是要求画面看起来流畅,还要求实时交互的过程流畅。原本就低的原生渲染帧率,固然能借助DLSS获得足够高的画面流畅度,操控体验就未必跟得上。
提到交互延迟,既然DLSS 是渲染管线多出的一环,而且还涉及AI推理,其处理过程理论上也会增加每一帧输出的延迟。所以从DLSS 3开始,NVIDIA就在交互延迟的问题上下了不少工夫。我们对不同DLSS选项下,相关交互延迟的PC Latency做了统计:
注1:端到端系统延迟是指从点击鼠标那一刻开始,到屏幕对该操作做出响应之间的时间差;而PC Latency是指去除了外设与显示器延迟以后,系统延迟的其余部分——其中涵盖了CPU的游戏延迟与GPU的渲染延迟;
注2:为了让测试结果更有参考价值,此处《赛博朋克2077》的画质降到了“光追:中”;
从测试数据来看,DLSS 3时代绑定的NVIDIA Reflex的确称得上降低交互延迟的大功臣——该特性一旦启用,则PC Latency就会大幅下降——即便在《霍格沃兹之遗》的例子中,单纯开启NVIDIA Reflex会让帧率小幅下降,获得的交互延迟收益也是相当高的。
在Reflex的加持下,启用DLSS 4即便要跨5个AI网络才能生成像素和帧,PC Latency数字也能满足大部分游戏的实时交互需要。当然,模型和算法优化的功劳也不小;尤其是DLSS 4的更新。
基于这两张图呈现的数据,也能观察到一些有趣的结论:(1)更高倍率的多帧生成的确会有更高的延迟;(2)同为DLSS 4的情况下,Transformer模型比CNN模型有着略高的延迟,但对一般玩家而言基本可以忽略不计;
(3)DLSS 4有着相比DLSS 3明显更低的延迟,即便前者开启4x多帧生成、采用Transformer网络,也比后者基于CNN网络2x帧生成的PC Latency更低。 NVIDIA在软件方面的功力绝对不是一朝一夕养成的。
AI时代,该怎么看游戏性能提升?
基于“不把AI当做游戏的附加特性,而将其视为未来游戏的基础构成要素”这一基本点,以后要说游戏性能提升了多少,普遍应当将AI视作整体中的一部分来谈,不要总觉得图形单元堆的料才算是提升。说起来,老黄在发布会上说RTX 5070游戏性能达到RTX 4090的程度,应当也是以此为立足点的。
总结本次体验的10款游戏,在RTX 5080公版卡和铭瑄RTX 4080 SUPER两张卡之上的性能:
注:我们拿到的测试版《心灵杀手2》似乎并不支持DLSS 3帧生成(但支持DLSS 4帧生成),所以RTX 4080 SUPER开启DLSS后《心灵杀手2》的游戏性能是未启用帧生成的
按照传统意义上的原生渲染性能提升,基于测试,RTX 4080 SUPER → RTX 5080的游戏性能提升幅度平均在14%左右,与理论图形测试结果相符,也符合制造工艺不变、晶体管堆料基本不变、架构迭代的常规预期——虽然测试样本量整体还是太少。
但如果加上AI,则我们倾向于在“将其视为未来游戏的基础构成要素”基本点之下,如对于《霍格沃兹之遗》而言,将RTX 5080开启DLSS 4x后的帧数,去比RTX 4080 SUPER开启DLSS 3的帧数;则游戏性能提升超过80%;相对的就可以说《赛博朋克2077》的游戏性能提升1倍多…
这不仅是因为从体验层面来看,它的确做到了80%与1倍多的确切提升;还在于摩尔定律停滞大背景下,AI会长期成为未来推进游戏性能提升的主力。其实从体验角度来看,《心灵杀手2》这类型的游戏还真是格外适合DLSS 4:在路径追踪间接照明开启,图形负载大幅提升的情况下,超分+多帧生成的确极大提升了游戏流畅度,也降低了交互延迟(包括更低的原生渲染分辨率降低了渲染压力、DLSS 4的AI模型效率提升、NVIDIA Reflex的加持),且几乎很难察觉画质损失。
即便目前支持DLSS 4的游戏还是少数,但在AI“染指”图形学技术越来越深入的当下,我们认为其生态发展速度应当会快于以往。而且DLSS在游戏中的应用,还只是AI在游戏领域持续深入的开端。
今年随RTX Blackwell的发布,NVIDIA引入了新词:neural graphics(神经网络图形)、neural rendering(神经网络渲染)、neural shading(神经网络着色)等。NVIDIA把“神经网络渲染”放到了计算机图形学“新纪元(next era)”的高度,甚至和当年可编程shader的引入并驾齐驱。
所谓的“神经网络渲染”,可笼统地总结为将AI融入到渲染流程之中。NVIDIA的官方资料将DLSS视作神经网络渲染的第一个具体应用;接下来就是要把神经网络融入到可编程shader中,构建起所谓的“Neural Shaders”——这在我们看来才是AI对于图形渲染和游戏更彻底的渗透,也是Blackwell和RTX 50系显卡战未来的体现。
NVIDIA新闻稿提到Neural Shaders是把小型AI网络带到可编程shader上,实现“影视级材料、光影和更为实时的游戏”效果。一般我们说传统shading是基于复杂的数学算法来模拟光线交互之类的过程。而Neural Shaders是将小型神经网络集成到可编程shader里面。融合了AI的shader能够让开发者实现更为复杂、真实的视觉效果。
这项技术目前的三个应用包括RTX Neural Texture Compression神经网络纹理压缩(进行高倍率的纹理压缩,大幅节约显存或系统内存)、RTX Neural Materials神经网络材质(具体能够达成以前延后渲染才能达成的渲染材质效果)、RTX Neural Radiance Cache神经网络辐射缓存(借助AI学习多次反射的间接照明,实现更高效的路径追踪间接照明)。
除了NVIDIA自己的配套SDK会逐步开放这些新特性,微软也准备在DirectX 12中引入“Cooperative Vector”API支持,开发者就能充分利用Tensor Core来搞“神经着色”。加上Slang作为shading语言能够相对方便地替代传统图形管线,直接在工作流中融入神经技术,这也算得上是Neural Shaders的标准化基本确立了。
市场主流竞争对手估计会加快跟进,因为这绝对称得上是AI对游戏和图形渲染的最显性渗透了。Neural Shaders这类技术持续走向深入,则针对游戏的体验测试也将几乎不可能像现在这样还把DLSS与原生渲染所得帧数做出切分;或者届时也将不可能有人固执地认为,AI给图形渲染带来的加成不算性能提升,因为AI已经真正渗透到了图形渲染的骨髓中,与传统图形技术你中有我、我中有你。
AI性能专项测试,硬件只占一半
此前我们汇总RTX 50系显卡的性能参数时有个有趣的发现。还未公布RTX Blackwell架构技术白皮书之时,NVIDIA官网给GeForce RTX 5080标称的Tensor Core算力是“1801 AI TOPS”;而翻看RTX 4080/RTX 4080 SUPER参数则会发现标注为“780 AI TOPS” / “836 AI TOPS”。
想想NVIDIA是怎么在整片die晶体管数量不变的情况下实现AI TOPS算力暴增1倍多的?答案其实是1801 AI TOPS说的是FP4 AI TOPS,而非INT8。延续数据中心Blackwell架构特色,第5代Tensor Core引入了对于FP4数据格式的原生支持——这也符合AI模型日趋利用更低精度数据格式、依托稀疏化提升性能的大方向。
目前能相对方便地接触到的、为数不多的FP4数据精度推理测试是FLUX.1 AI生图。前不久Black Forest Lab和NVIDIA宣布就FLUX模型合作,达成面向Blackwell架构芯片的所谓“闪速”推理,宣传上是说占用内存资源少,速度快;尤其对RTX 50系显卡的原生FP4支持出色——FLUX.1[dev]的FP4量化模型跑在GeForce RTX 5090上只需要10GB显存,就比用BF16精度跑在RTX 4090上快2倍。
不知是驱动不完善、TensorRT推理引擎尚未完全准备就绪或FLUX模型支持问题(猜测应该是这个原因),还是平台系统存在兼容性问题,RTX 5080基于FP4精度跑FLUX.1生图测试的性能成绩有显著异常,结果偏差非常大,一张1024*1024的图时而需要200+秒生成,时而50秒,38.7 s/image已经是反复测得的最好成绩:
观察RTX 5080跑FLUX.1 – FP4量化模型时的功耗变化,会发现其测试全程的GPU芯片峰值功耗也仅110W,显存则全部吃满——这和RTX 4080 SUPER跑这项测试时顶着330+W,显存占用低很多的动作来看,GPU驱动或TensorRT应该是测试BUG存在的罪魁祸首。
遗憾未能得见Blackwell在FP4数据格式上的威力,待驱动、模型更新或有更多FP4应用出现以后,我们会尝试再做测试——毕竟这是个真正有机会在晶体管数量基本不变的情况下,见到Ada Lovelace → Blackwell 迭代性能较大差距的测试项。而且FP4的确是AI与机器学习领域值得关注的数据格式。
而FP8精度的FLUX.1模型跑起来就没问题(隔代性能提升幅度12.3%)。观察FP8精度下FLUX.1生图的GPU功耗变化(显存占用情况也相似)也不难发现,RTX 5080在AI生图测试中的能效提升约在10%+的水平上;理论上这个值应当会在FP4量化模型中达成大幅跃进。
很不幸的是,RTX 5080目前也跑不了UL Procyon传统的Stable Diffusion文生图测试(下图),主流的AI生图测试对RTX 5080而言就只能暂时缺席了。
有关文生图测试,值得一提的是,似乎是UL Procyon测试工具钦定TensorRT或NVIDIA显卡在三家主流市场参与者中的效率最高,Stable Diffusion XL这项测试的硬件规格要求列表,对于OpenVINO和ONNX Runtime列出的显存最低要求都是16GB,唯有TensorRT是只需要10GB…这是不是也算是对CUDA生态的某种侧面肯定…
虽然没有RTX 5080的成绩,不过这也是个观察独显与CPU核显AI性能差距的好机会,RTX 4080 SUPER的SD文生图性能是Lunar Lake的大约13倍;
与此同时,RTX 5080目前也无法基于TensorRT去跑UL Procyon更老的AI CV测试,所以只能藉由效率差一截的Windows ML通用中间层去跑,也就让AI CV测试的价值看起来并不怎么高。该测试主要是跑MobileNet V3, ResNet50, Inception V4, YOLO V3等传统CNN模型。
除了计算机视觉、生图,主流的AI测试“三剑客”还有一项,就是LLM大语言模型测试了。所幸ONNX Runtime的通用性还是不错,所以UL Procyon和MLPerf的LLM推理测试都能顺利进行。
为让测试结果更具参考意义,图表中也标出了TTFT(首token等待时间,可理解为问出问题以后,大模型做出回应的等待时间)和OTS(平均token生成速度,可理解为大模型交谈时的“打字速度”)。在LLM大语言模型推理测试中,RTX 5080的性能比RTX 4080 SUPER强出约20%:
从上述AI测试结果来看,RTX 5080的性能和效率提升基本在预期范围内——和图形渲染性能相似,AI推理的绝对算力和效率提升基本都通过架构改良获得。不过NVIDIA这次上GeForce RTX 50系显卡的同期工具准备工作,还是略微有些匆忙了。
但另一方面,电子工程专辑此前的硬件体验文章就提到,目前的AI Benchmark测试普遍还不够成熟;在一类技术的高速发展期,这类基准测试与其说是硬件间的较量,还不如说是谁软件和算法写得更好:任何中间件的版本迭代,都有可能带来测试成绩的显著变化。所以这些测试的乐子成分目前还都比较高。
其他AI相关测试:视频与通用计算
除了前述游戏里的AI和更纯粹的AI专项测试,最后也列出其他一些和AI有关的测试。其一是视频剪辑:像Davinci Resolve Studio这类视频编辑工具,在首次进入时就提示“正在优化达芬奇神经引擎”,编译优化工作一等就是20分钟...现代化的游戏和应用,没有AI已经不好意思跟人打招呼了。
还是需要再次声明:视频编辑测试是综合系统性能测试,并不单纯或着重考察GPU,对通用计算、存储和通信能力都是考验。不过在对比双方其他变量不变的情况下,依然能看出显卡造成的性能差异。
在Pugetbench的Davinci Resolve Studio测试中,除了常见的媒体编解码、动态图形与VFX工作流合成等测试外,有个明确的AI测试子项——比如说视频画面的超分、对象抠像、音频转写、深度图、对象追踪等,对GPU而言基本也都是较强的负载测试。
不过AI测试目前主要是针对Pugetbench付费用户,所以上述测试从中获取的AI子项含量可能是比较低的。但至少这也说明了在更多PC负载中AI渗透率的提升,也是NVIDIA目前在推RTX AI PC的组成部分。
UL Procyon的视频编辑测试(上图中的第三项)基于Premiere Pro,测试方法相比Pugetbench简单许多:其测试核心似乎就在1080p和4K不同格式的媒体编解码上。所以会看到增配了NVENC/NVDEC的RTX 5080在这项测试中表现出了比较明确的性能优势(提升近30%)。
实际上Pugetbench的视频编辑测试项中包含针对4K HEVC 4:2:2 10bit的解码。这也恰好是本次RTX 50系显卡在媒体引擎部分强化的关键。不过一方面因为RTX 5080还比较新,并不清楚Davinci Resolve在测试流程中是否获得了媒体引擎的硬件加速;另一方面,还是受限于Pugetbench测试对免费和付费用户的差异,该项目可能未必包含在免费测试中……
说到底,加速器类型芯片的较量,有一半还是在软件上。但至少媒体引擎及特效加速之类的常规项,于RTX 5080而言也是实打实的提升了。
最后再补充一个Geekbench的GPU Compute测试,RTX 5080与RTX 4080 SUPER的测试结果,也基本符合两者CUDA core算力8%差距的预期:
很多同学可能不知道GPU Compute是个反映GPU通用计算加速能力的测试,其中包含有对机器学习、计算机视觉类应用的考察,即便它相较当代AI专项测试而言相对古老。这项测试很大程度也受到中间件效率的影响,大概率不会动用到Tensor Core;RTX 5080与RTX 4080 SUPER在这项测试中的性能差距在7%左右。
若要对GeForce RTX 5080显卡及RTX Blackwell做个体验测试的总结,我们给出的评价会是:这是个更多着眼于战未来的显卡和架构:倒不光是即将提枪上马的Reflex 2特性,或者RTX Mega Geometry、DLSS 4这些更加近在眼前和很快要普及的具体技术;
而在于“Neural Rendering(神经网络渲染)”及”Neural Shading(神经网络着色)”概念的提出,及其作为标准在未来10年影响到整个行业发展的可能性,让人感觉NVIDIA相比其他竞争对手还是技高N筹的,也是今年CES之上让我们感觉最惊艳的大招。行业常说一流的企业做标准,二流的企业做产品,用在如今的NVIDIA和其他竞争对手身上应该是再合适不过的了。
即便GeForce RTX 5080显卡的绝对图形渲染性能提升幅度有限,基于能查阅的图形测试跑分,它不及上代RTX 4090;基于我们的测试结果,它和RTX 4080 SUPER的差距也不大。但就像本文第一部分提到的,GPU借助图形单元堆料获得性能暴力提升的时代已经一去不复返;而AI作为图形计算事实上的的组成部分,不是孤立的加分项或单独的特性,而应当被视作游戏与图形渲染的基础要素和未来发展依托。
DLSS 4是在RTX 5080显卡相较上代并未增加晶体管数量和芯片面积的基础上,达成的游戏帧数及体验飞跃;这就是AI在这个摩尔定律走向没落时代的典型写照。而Neural Rendering还将深化这一主题,令AI与游戏真正变得不可分割。
![](https://www.eet-china.com/images/2.0/interested-icon.png)