现在的游戏显卡，加那么多AI单元真的有用吗？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

现在的游戏显卡上，AI单元的占die面积越来越大——这些die size要是省下来，拿来堆图形渲染单元他不香吗？我们在近期的GeForce RTX 40系品鉴会上，看到了这些...

大部分关注GPU的同学都知道，近代NVIDIA GeForce RTX GPU，里面也充斥着所谓的Tensor core。一般我们说Tensor core是用于AI与HPC计算加速的，或者说用于加速矩阵乘运算。从Volta架构开始，到现在的Ada Lovelace/Hopper架构，Tensor core已经走到“第四代”了。

Tensor core并不是传统意义上的图形渲染单元——它的存在也一定程度让GPU变得不再那么Graphical...从我们能找到的数据来看，早在Turing架构时期，Frizchens Fritz 公开 TU106 （Turing ）的高分辨率红外 die shot，提到TU106的一个TPC（Texture Processing Cluster）占die面积约为10.89mm²，其中的Tensor core大约1.25mm²——包含ALU、scheduler、cache相关部分。

Turing架构TU106 die shot，来源：Frizchens Fritz

从整个GPU die的角度来看，TU106的Tensor core占die面积大约在10%左右——当然这个数字未必可靠，因为我们还从其他来源听说，Turing时代的这一数值可能在20%左右；无论如何，这起码说明了传统图形处理器上，至少已经有这么大一片晶体管是“不务正业”的了。

这已经是前两年的数字了，TU106的Tensor core单纯看核心数是288个；这一代AD102（Ada Lovelace）的Tensor core数量已经增加到576个（RTX 4090并未全部用上这些核心）；换句话说现在的GeForce图形卡，用在AI上的料可着实不少了。

这就涉及到一个问题，AI对于游戏和图形视觉类应用究竟有什么价值？这些die size拿来堆shader core之类的图形单元他不香吗？现在的AI计算，于游戏应用的一个重要价值在于：生成（generate）像素与帧——它和图形单元的区别在于，后者是渲染（render）像素与帧。

“生成”和“渲染”有啥不同呢？说点儿实际的，NVIDIA最新的DLSS 3技术支持超分辨率（Super Resolution）和帧生成（Frame Generation）：玩个1080p分辨率的游戏，如果超分辨率到4K分辨率，就有75%的像素和一半的帧是AI生成的，而不是由图形渲染单元算出来的。而Tensor core投入的die size，远远不到图形渲染单元的一半，功耗更是低了不止一个数量级，这笔投入是不是还挺划算的？

也就是说，如果这些像素和帧都要由图形单元去算，那所需的晶体管数量、显卡售价、功耗水平都会冲着爆炸级别而去。最近NVIDIA在上海办了一场GeForce RTX 40系显卡品鉴会——这次品鉴会的主题之一就是DLSS 3，当然相关的还有全景光线追踪，以及OEM产品展示。不过我们重点就关注一下和AI关系最大的DLSS 3，以及其他与GeForce显卡相关的AI技术。

做游戏、做动画也用AI的话...

去年NVIDIA GTC开发者大会上，我就写文章说游戏方面让人眼前一亮的是一个叫 RTX Remix 的工具，这个工具能给一些DirectX 7/8老游戏做MOD，让老游戏也立马支持光线追踪、DLSS之类的新技术。NVIDIA演示的《上古卷轴3：晨风》加上RTX之后的效果，的确堪称惊艳。

这次我们在品鉴会上看到了当时NVIDIA亲自下场给游戏《传送门：序曲》，基于RTX Remix做的《传送门：序曲》RTX版，让这个2008年度最佳游戏，看起来跟现在的新游戏似的。就玩家层面来看，和AI技术最相关的自然是DLSS——不过有关DLSS 3的部分，我们放到后面再去谈。

这里NVIDIA 作为开发者与《传送门：序曲》(Portal Prelude) 的原创Nicolas "NykO18" Grevet以及著名Mod爱好者David "Kralich" Driver-Gomm合作对《传送门：序曲》RTX版进行现代重构时，本身也是受惠于AI的。如果你仔细阅读了我们剖析 RTX Remix 的技术文章会了解，RTX Remix并不单纯是给老游戏加上光追、DLSS之类的支持这么简单。

这套工具里面有个AI纹理工具——一方面能够将低分辨率的资源（asset）upscale为4倍高分辨率，比如1080p分辨率就upscale为4K；另一方面，AI可以对老游戏中的纹理进行inference，将比较老旧的纹理，转为某种材质精美的纹理，NVIDIA在此前的媒体会上称其为“Re-Texturing”，AI纹理工具“看到”画面以后，能够“理解画面原本想要呈现的材料”，比如看到一扇木头门，就能很快用高分辨率、高质量的木质纹理对原有纹理做替换。

那么很显然这里的AI纹理工具，是首先需要NVIDIA去做个网络模型的。NVIDIA方面说是对游戏纹理的大量图片做了训练，这样的网络可应用于纹理、物理属性之类的推理。是不是还感觉挺神奇的？

《上古卷轴3：晨风》开关RTX前后变化

我们在这次品鉴会上问了NVIDIA，除了DLSS这样的技术，在游戏对AI的利用上还有什么样的规划。NVIDIA谈到了NVIDIA Omniverse ACE（Avatar Cloud Engine）已经在和“开发者合作中”，“后续应该就会有比较好的呈现”。

去年 GTC 报道中我们谈过ACE，这两年在网上还挺火的Toy Jensen——就是那个黄仁勋3D卡通形象，也部分基于ACE；还有包括Violet、Tokkio之类的虚拟形象应用，都有ACE技术成分。去年我还撰文谈过 Toy Jensen 这个角色形象身上存在多少种不同的AI技术和“microservices”，包括Audio2Face生成式AI——基于音频就能构建脸部动画、Riva——将单纯的文本说出来的text-to-speech、Nemo生成式AI——可以理解为针对特定领域的定制版ChatGPT等等...

从最简化的工作框图来看，文字、音频、视频数据输入到ACE网络，就能输出2D或者3D形象（模型训练流程应该是在DGX Cloud上进行的）。从NVIDIA市场宣传老是爱换某些概念的名字和定位（不是...）的传统来看，ACE未来囊括的AI技术应该会持续扩展。

那么很容易想见，将这些应用到游戏开发中会有怎样的化学反应。前两个月的Computex上，黄仁勋特别发布了NVIDIA ACE 游戏开发版，用于构建游戏中的NPC，NPC的角色反应通过生成式 AI 变得更智能。想象游戏中的NPC都有ChatGPT般的聊天能力...

我们现在暂时还不清楚，将来基于ACE的网络模型inference具体会怎么做。不过听NVIDIA的意思，具体到玩家这一侧，与NPC对话的AI inference可能是由GeForce显卡的Tensor core来完成的。

我倒是觉得，这对Tensor core的利用相比DLSS更为充分了。虽然这东西一听就知道，又是个需要生态和开发者支持的大工程——好在从现有市场来看，NVIDIA生态构建能力，在图形和AI领域都是无出其右的，DLSS不是发展得就挺好么。

AI短片《Flower》

内容创作部分，最后再来谈一个品鉴会上的demo：NVIDIA请来了B站up主特效小哥008和拓星研究所的达威，展示他们用AI辅助制动的特效短片《Flower》——后续应该也会在B站发布。据说这个短片在AI辅助创作下，4个人只用了5天时间完成，008说按照以往的流程，这样一个短片可能需要长达1个月的时间去制作。

从现场听到的介绍来看，该短片制作至少用到两个AI相关的工具，其一是NVIDIA Canvas——这应该也是现在Omniverse生态里的工具，即在画布上，用笔刷简单画几笔，Canvas就能基于AI自动生成photorealitic真实风格的风景画。今年CES上，NVIDIA 对此做了更新，新特性叫Canvas 360，即开始支持360°全景图——构成环绕场景。

《Flower》的创作应该就是基于Canvas 360特性，CG短片的背景是用Canvas完成的。感觉比较奇特的是，Canvas 360特性中，创作者可以构建等矩阵（equirectangular）环境图，导入到3D应用里——然后就能改变场景光照，增加反射之类的。008告诉我们，Canvas生成的山、云等背景，对于短片制作非常方便。

品鉴会现场用笔记本演示Canvas应用

其二是Stable Diffusion——这个text-to-image生成式AI，大部分同学应该也很熟悉了。“搭好场景，渲染好之后，丢进Stable Diffusion，让AI去做更进一步的工作。”“AI帮我们填充了很多东西”，比如机器人身上的金属划痕细节、“手部细节”，“这些都是原资产里没有的，AI填补出来的”；在模型精度较低的情况下，“AI帮我们填充了很多想要的细节”。

不过整个短片制作应当不仅限于这两个AI构成，包括动作捕捉（Move AI），以及文字脚本、视频最后总结的一行字甚至也都是AI完成的。全部工作流用上了“4张40系显卡，结果还是挺梦幻的”，008说。

NVIDIA现场也提到了自家AI工具的一些合作应用案例，比如Canvas已经在火星时代做应用；好像每年GTC或者包括SIGGRAPH、Computex之类的会，NVIDIA都要宣布一堆AI相关的新合作，多少也是要表明自家AI生态的构建情况。

我们在这部分谈《传送门：序曲》RTX版游戏、NVIDIA ACE 游戏开发版，以及《Flower》短片的这三个例子，都是要说明AI技术于游戏开发和内容创作，正在扮演越来越重要的角色，Tensor core在娱乐与生产力方向也正变得预发重要。

其实我们始终觉得，现在的AI应用，于创作流程仍然只呈现出了点状，就好像《Flower》短片制作，是某些地方用上AI做辅助；生产力、游戏，和多媒体创作上，AI的参与度未来还会越来越深入，尤其是在生成式AI为这个路径指明了方向以后。

从NVIDIA Omniverse和AI这两大板块的加速库到应用框架，仍然可以看到很多东西可在游戏、生产力上做应用的潜力；而且这里还没有谈到AR/VR之类的部分。举个例子，我记得去年GTC上，黄仁勋展示了某个AI-powered character，这些角色基于人类动作数据来学习人类的真实动作，包括走路、跑步、挥剑——据说角色训练机制原本要求10年期的模拟，但基于大规模并行GPU模拟，只需要现实世界3天就训练完成。

训练完成后的角色掌握各种技能，还能执行更复杂的任务，比如撞倒某个东西、往不同方向前进，甚至我们用自然语言能去控制它。不说这东西对Isaac之类有什么用，感觉于游戏3D角色的动作多样化、自然流畅都有相当的价值（虽然可能这东西云端和本地算力需求也十分巨大），远比现在的游戏体验更好、更丰富。

DLSS 3和游戏AI的生态推进

谈游戏AI嘛，自然少不了DLSS——相比前面谈到的内容，DLSS对玩家可产生的直观感受提升应该是更为显著的。大部分玩家对于DLSS 3应当都挺熟的了，这里不再细说其技术细节。

简单来说，DLSS 3是在原本DLSS 2能够做AI超分辨率的基础上，加入了帧生成和Reflex低延迟技术。如文首所述，DLSS 3帧生成是通过AI生成的——它更像是image图像领域的技术，而非由graphic图形计算获得。

具体是怎么补的，可以参见我之前撰写的文章，总结起来是运动矢量+光流。GPU硬件层面，这代Ada Lovelace是加入了光流加速器的。另外，配套的Reflex通过抹去渲染队列的延迟，不仅抵消了补帧在流程上增加的延迟，而且让输入到显示设备响应全链路的延迟降低到一个新的水平。

此前GTC上演示DLSS 3比较让人印象深刻的是Racer X，GeForce RTX 4090 + DLSS 3相比RTX 3090 + DLSS 2，设计场景实现了将近4倍的帧数提升。DLSS 3的帧生成在其中是起到了相当大的作用的。

这次品鉴会让我印象比较深刻的一是跑Unreal Engine虚幻引擎的实时渲染官方demo，现场工作人员说当场景变得非常复杂时，RTX 4090的实时渲染帧率也只有差不多20fps；引入DLSS 2做超分，则帧率能够提升到接近30fps；而藉由DLSS 3补帧，画面提升到接近60fps；

其二是NVIDIA与国内的建筑软件D5的合作，在D5加入DLSS 3支持以后，建筑场景实时渲染可以从30fps提升到60fps。这些对于创作者、设计师而言都是体验层面质的提升。

之前总有部分游戏玩家说，AI生成的像素和帧“不算数”，渲染算力才是“真正的”算力。这话或许得分两部分来看。其一是评价一个复杂系统的性能，应当以高抽象层级的性能表现为判断依据，而不是系统中的某一个组件。在游戏和设计类别的应用里，所谓的“高抽象层级”就是玩家和用户的体验。画面好不好看、动起来流畅不流畅、综合体验行不行是铁一般的判断标准。

实际上即便在传统的图形渲染管线里，也有各种诸如数据压缩之类的奇技淫巧在发挥作用——这些取巧的技术算不算数呢？何况在图形学生态变得复杂、多样时，衡量一个系统的优劣，早就脱离了FP32算力的范畴。图形加速卡发展的历史长河中诞生过很多不同的技术，AI现在作为其中一环，“怎么不算呢？”

另一个关键问题是，半导体行业的摩尔定律停滞。单纯靠堆shader core和存储资源，要达成品鉴会上Unreal Engine或者D5演示demo的60fps，现阶段所需付出的代价恐怕是任何玩家、工作室，乃至HPC数据中心都无法承担的；AI的诞生可以说是摩尔定律停滞时代的必然——因为这是系统层面提升面积与成本效益，外加能效的最佳选择。

这里面最应该担心的应该是DLSS的生态建设情况。因为要动用Tensor core加速，必然要求游戏和其他图形应用开发者在代码层面做支持。如果这个生态吸引不到足够多的开发者参与，那么Tensor core和AI技术才是白白浪费了。

好在品鉴会上，NVIDIA说DLSS 3在推出半年内的普及速度，相比于DLSS 2同期，已经快了7倍。到目前为止，支持DLSS 的游戏已经超过了300款，其中38款游戏和应用现已支持DLSS 3。

品鉴会现场展示了不少支持DLSS 3的游戏，不仅是《赛博朋克2077》这类在光追特性上需要耗费大量算力的3A游戏——尤其在overdrive超速模式诞生以后；还包括《暗黑破坏神IV》这样的网游——DLSS能够走进网游，应当也某种程度表明了这项技术大众化的开始。

现场工作人员说，《暗黑破坏神IV》1080p分辨率下，RTX 4060就能稳定在100fps以上；而“有些玩家期望做到极致，开4K分辨率，那么有了DLSS 3，也能达到60fps”。这是GPU这种大芯片在即将突破reticle limit的时代，AI在体验层面实打实的加成。

其实这次NVIDIA期望展示的重点，应该在国产网游对DLSS 3的积极支持上，包括《永劫无间》《鸣潮》的PC端，是尚未公开、未来很快就要加入DLSS 3支持的demo演示；现场还有尚未上线的《重生边缘》独家Demo，对光线追踪的完整支持引入，有了DLSS 3以后，RTX 4060玩2K分辨率也能有100+fps的帧率。

也有《无畏契约》这种追求低延迟，因此单独加入Reflex的FPS游戏——现场工作人员告诉我们目前排名前10的FPS游戏，9款都已经集成了Reflex。这些也都是NVIDIA图形生态的组成部分。

摩尔定律死了，显卡靠AI救赎

去年我们跟芯片行业内的不少企业高层聊元宇宙，大家都认同电子游戏就是元宇宙的某种雏形——玩家在里面消费、交流、游览…元宇宙作为虚拟世界，图形构建需要依托GPU——而元宇宙相比游戏会惠及更多人，GPU的市场还会有一次井喷。

也不光是元宇宙、电子游戏、专业视觉设计，社会数字化转型整体都对算力有着指数级增长的需求，则单靠摩尔定律支撑下GPU的图形和通用计算单元顶着，是真的不够看。何况摩尔定律还延续不下去了。

这时候我们看到，NVIDIA面向游戏在图形卡上加入用于AI计算的Tensor core，为游戏布局DLSS 3、ACE等各种AI技术。大体思路就是图形和AI一边渲染、一边生成像素，GeForce RTX 40系时代更像是未来世界的某种模板。GPU是在摩尔定律走不下去，单位面积再难成倍塞下晶体管时，获得了AI的救赎的。

当这种思路扩展到更大范围，不就是元宇宙和新时代的数字生活么？现阶段还真的只有NVIDIA这一家做到了牢牢把持图形与AI/HPC两边的生态，并且双方还正以相辅相成的姿态往前走。

责编：Illumi

阅读全文，请先

人工智能消费电子处理器/DSP

现在的游戏显卡，加那么多AI单元真的有用吗？

做游戏、做动画也用AI的话...

DLSS 3和游戏AI的生态推进

摩尔定律死了，显卡靠AI救赎

杂志声明