现在的游戏显卡上,AI单元的占die面积越来越大——这些die size要是省下来,拿来堆图形渲染单元他不香吗?我们在近期的GeForce RTX 40系品鉴会上,看到了这些...

大部分关注GPU的同学都知道,近代NVIDIA GeForce RTX GPU,里面也充斥着所谓的Tensor core。一般我们说Tensor core是用于AI与HPC计算加速的,或者说用于加速矩阵乘运算。从Volta架构开始,到现在的Ada Lovelace/Hopper架构,Tensor core已经走到“第四代”了。

Tensor core并不是传统意义上的图形渲染单元——它的存在也一定程度让GPU变得不再那么Graphical...从我们能找到的数据来看,早在Turing架构时期,Frizchens Fritz公开TU106Turing)的高分辨率红外die shot,提到TU106的一个TPC(Texture Processing Cluster)占die面积约为10.89mm²,其中的Tensor core大约1.25mm²——包含ALU、scheduler、cache相关部分。

Turing架构TU106 die shot,来源:Frizchens Fritz

从整个GPU die的角度来看,TU106的Tensor core占die面积大约在10%左右——当然这个数字未必可靠,因为我们还从其他来源听说,Turing时代的这一数值可能在20%左右;无论如何,这起码说明了传统图形处理器上,至少已经有这么大一片晶体管是“不务正业”的了。

这已经是前两年的数字了,TU106的Tensor core单纯看核心数是288个;这一代AD102(Ada Lovelace)的Tensor core数量已经增加到576个(RTX 4090并未全部用上这些核心);换句话说现在的GeForce图形卡,用在AI上的料可着实不少了。

这就涉及到一个问题,AI对于游戏和图形视觉类应用究竟有什么价值?这些die size拿来堆shader core之类的图形单元他不香吗?现在的AI计算,于游戏应用的一个重要价值在于:生成(generate)像素与帧——它和图形单元的区别在于,后者是渲染(render)像素与帧。

“生成”和“渲染”有啥不同呢?说点儿实际的,NVIDIA最新的DLSS 3技术支持超分辨率(Super Resolution)和帧生成(Frame Generation):玩个1080p分辨率的游戏,如果超分辨率到4K分辨率,就有75%的像素和一半的帧是AI生成的,而不是由图形渲染单元算出来的。而Tensor core投入的die size,远远不到图形渲染单元的一半,功耗更是低了不止一个数量级,这笔投入是不是还挺划算的?

也就是说,如果这些像素和帧都要由图形单元去算,那所需的晶体管数量、显卡售价、功耗水平都会冲着爆炸级别而去。最近NVIDIA在上海办了一场GeForce RTX 40系显卡品鉴会——这次品鉴会的主题之一就是DLSS 3,当然相关的还有全景光线追踪,以及OEM产品展示。不过我们重点就关注一下和AI关系最大的DLSS 3,以及其他与GeForce显卡相关的AI技术。

 

做游戏、做动画也用AI的话...

去年NVIDIA GTC开发者大会上,我就写文章说游戏方面让眼前一亮的是一个叫RTX Remix的工具,这个工具能给一些DirectX 7/8老游戏做MOD,让老游戏也立马支持光线追踪、DLSS之类的新技术。NVIDIA演示的《上古卷轴3:晨风》加上RTX之后的效果,的确堪称惊艳。

这次我们在品鉴会上看到了当时NVIDIA亲自下场给游戏《传送门:序曲》,基于RTX Remix做的《传送门:序曲》RTX版,让这个2008年度最佳游戏,看起来跟现在的新游戏似的。就玩家层面来看,和AI技术最相关的自然是DLSS——不过有关DLSS 3的部分,我们放到后面再去谈。


这里NVIDIA 作为开发者与《传送门:序曲》(Portal Prelude) 的原创Nicolas "NykO18" Grevet以及著名Mod爱好者David "Kralich" Driver-Gomm合作对《传送门:序曲》RTX版进行现代重构时,本身也是受惠于AI的。如果你仔细阅读了我们剖析RTX Remix的技术文章会了解,RTX Remix并不单纯是给老游戏加上光追、DLSS之类的支持这么简单。

这套工具里面有个AI纹理工具——一方面能够将低分辨率的资源(asset)upscale为4倍高分辨率,比如1080p分辨率就upscale为4K;另一方面,AI可以对老游戏中的纹理进行inference,将比较老旧的纹理,转为某种材质精美的纹理,NVIDIA在此前的媒体会上称其为“Re-Texturing”,AI纹理工具“看到”画面以后,能够“理解画面原本想要呈现的材料”,比如看到一扇木头门,就能很快用高分辨率、高质量的木质纹理对原有纹理做替换。

那么很显然这里的AI纹理工具,是首先需要NVIDIA去做个网络模型的。NVIDIA方面说是对游戏纹理的大量图片做了训练,这样的网络可应用于纹理、物理属性之类的推理。是不是还感觉挺神奇的?


《上古卷轴3:晨风》开关RTX前后变化

我们在这次品鉴会上问了NVIDIA,除了DLSS这样的技术,在游戏对AI的利用上还有什么样的规划。NVIDIA谈到了NVIDIA Omniverse ACE(Avatar Cloud Engine)已经在和“开发者合作中”,“后续应该就会有比较好的呈现”。

去年GTC报道中我们谈过ACE,这两年在网上还挺火的Toy Jensen——就是那个黄仁勋3D卡通形象,也部分基于ACE;还有包括Violet、Tokkio之类的虚拟形象应用,都有ACE技术成分。去年我还撰文谈过Toy Jensen这个角色形象身上存在多少种不同的AI技术和“microservices”,包括Audio2Face生成式AI——基于音频就能构建脸部动画、Riva——将单纯的文本说出来的text-to-speech、Nemo生成式AI——可以理解为针对特定领域的定制版ChatGPT等等...


从最简化的工作框图来看,文字、音频、视频数据输入到ACE网络,就能输出2D或者3D形象(模型训练流程应该是在DGX Cloud上进行的)。从NVIDIA市场宣传老是爱换某些概念的名字和定位(不是...)的传统来看,ACE未来囊括的AI技术应该会持续扩展。

那么很容易想见,将这些应用到游戏开发中会有怎样的化学反应。前两个月的Computex上,黄仁勋特别发布了NVIDIA ACE 游戏开发版,用于构建游戏中的NPC,NPC的角色反应通过生成式 AI 变得更智能。想象游戏中的NPC都有ChatGPT般的聊天能力...

我们现在暂时还不清楚,将来基于ACE的网络模型inference具体会怎么做。不过听NVIDIA的意思,具体到玩家这一侧,与NPC对话的AI inference可能是由GeForce显卡的Tensor core来完成的。

我倒是觉得,这对Tensor core的利用相比DLSS更为充分了。虽然这东西一听就知道,又是个需要生态和开发者支持的大工程——好在从现有市场来看,NVIDIA生态构建能力,在图形和AI领域都是无出其右的,DLSS不是发展得就挺好么。


AI短片《Flower》

内容创作部分,最后再来谈一个品鉴会上的demo:NVIDIA请来了B站up主特效小哥008和拓星研究所的达威,展示他们用AI辅助制动的特效短片《Flower》——后续应该也会在B站发布。据说这个短片在AI辅助创作下,4个人只用了5天时间完成,008说按照以往的流程,这样一个短片可能需要长达1个月的时间去制作。

从现场听到的介绍来看,该短片制作至少用到两个AI相关的工具,其一是NVIDIA Canvas——这应该也是现在Omniverse生态里的工具,即在画布上,用笔刷简单画几笔,Canvas就能基于AI自动生成photorealitic真实风格的风景画。今年CES上,NVIDIA对此做了更新,新特性叫Canvas 360,即开始支持360°全景图——构成环绕场景。

《Flower》的创作应该就是基于Canvas 360特性,CG短片的背景是用Canvas完成的。感觉比较奇特的是,Canvas 360特性中,创作者可以构建等矩阵(equirectangular)环境图,导入到3D应用里——然后就能改变场景光照,增加反射之类的。008告诉我们,Canvas生成的山、云等背景,对于短片制作非常方便。


品鉴会现场用笔记本演示Canvas应用

其二是Stable Diffusion——这个text-to-image生成式AI,大部分同学应该也很熟悉了。“搭好场景,渲染好之后,丢进Stable Diffusion,让AI去做更进一步的工作。”“AI帮我们填充了很多东西”,比如机器人身上的金属划痕细节、“手部细节”,“这些都是原资产里没有的,AI填补出来的”;在模型精度较低的情况下,“AI帮我们填充了很多想要的细节”。

不过整个短片制作应当不仅限于这两个AI构成,包括动作捕捉(Move AI),以及文字脚本、视频最后总结的一行字甚至也都是AI完成的。全部工作流用上了“4张40系显卡,结果还是挺梦幻的”,008说。

NVIDIA现场也提到了自家AI工具的一些合作应用案例,比如Canvas已经在火星时代做应用;好像每年GTC或者包括SIGGRAPH、Computex之类的会,NVIDIA都要宣布一堆AI相关的新合作,多少也是要表明自家AI生态的构建情况。

我们在这部分谈《传送门:序曲》RTX版游戏、NVIDIA ACE 游戏开发版,以及《Flower》短片的这三个例子,都是要说明AI技术于游戏开发和内容创作,正在扮演越来越重要的角色,Tensor core在娱乐与生产力方向也正变得预发重要。

其实我们始终觉得,现在的AI应用,于创作流程仍然只呈现出了点状,就好像《Flower》短片制作,是某些地方用上AI做辅助;生产力、游戏,和多媒体创作上,AI的参与度未来还会越来越深入,尤其是在生成式AI为这个路径指明了方向以后。

从NVIDIA Omniverse和AI这两大板块的加速库到应用框架,仍然可以看到很多东西可在游戏、生产力上做应用的潜力;而且这里还没有谈到AR/VR之类的部分。举个例子,我记得去年GTC上,黄仁勋展示了某个AI-powered character,这些角色基于人类动作数据来学习人类的真实动作,包括走路、跑步、挥剑——据说角色训练机制原本要求10年期的模拟,但基于大规模并行GPU模拟,只需要现实世界3天就训练完成。

训练完成后的角色掌握各种技能,还能执行更复杂的任务,比如撞倒某个东西、往不同方向前进,甚至我们用自然语言能去控制它。不说这东西对Isaac之类有什么用,感觉于游戏3D角色的动作多样化、自然流畅都有相当的价值(虽然可能这东西云端和本地算力需求也十分巨大),远比现在的游戏体验更好、更丰富。

 

DLSS 3和游戏AI的生态推进

谈游戏AI嘛,自然少不了DLSS——相比前面谈到的内容,DLSS对玩家可产生的直观感受提升应该是更为显著的。大部分玩家对于DLSS 3应当都挺熟的了,这里不再细说其技术细节。

简单来说,DLSS 3是在原本DLSS 2能够做AI超分辨率的基础上,加入了帧生成和Reflex低延迟技术。如文首所述,DLSS 3帧生成是通过AI生成的——它更像是image图像领域的技术,而非由graphic图形计算获得。

具体是怎么补的,可以参见我之前撰写的文章,总结起来是运动矢量+光流。GPU硬件层面,这代Ada Lovelace是加入了光流加速器的。另外,配套的Reflex通过抹去渲染队列的延迟,不仅抵消了补帧在流程上增加的延迟,而且让输入到显示设备响应全链路的延迟降低到一个新的水平。

此前GTC上演示DLSS 3比较让人印象深刻的是Racer X,GeForce RTX 4090 + DLSS 3相比RTX 3090 + DLSS 2,设计场景实现了将近4倍的帧数提升。DLSS 3的帧生成在其中是起到了相当大的作用的。


这次品鉴会让我印象比较深刻的一是跑Unreal Engine虚幻引擎的实时渲染官方demo,现场工作人员说当场景变得非常复杂时,RTX 4090的实时渲染帧率也只有差不多20fps;引入DLSS 2做超分,则帧率能够提升到接近30fps;而藉由DLSS 3补帧,画面提升到接近60fps;

其二是NVIDIA与国内的建筑软件D5的合作,在D5加入DLSS 3支持以后,建筑场景实时渲染可以从30fps提升到60fps。这些对于创作者、设计师而言都是体验层面质的提升。

之前总有部分游戏玩家说,AI生成的像素和帧“不算数”,渲染算力才是“真正的”算力。这话或许得分两部分来看。其一是评价一个复杂系统的性能,应当以高抽象层级的性能表现为判断依据,而不是系统中的某一个组件。在游戏和设计类别的应用里,所谓的“高抽象层级”就是玩家和用户的体验。画面好不好看、动起来流畅不流畅、综合体验行不行是铁一般的判断标准。

实际上即便在传统的图形渲染管线里,也有各种诸如数据压缩之类的奇技淫巧在发挥作用——这些取巧的技术算不算数呢?何况在图形学生态变得复杂、多样时,衡量一个系统的优劣,早就脱离了FP32算力的范畴。图形加速卡发展的历史长河中诞生过很多不同的技术,AI现在作为其中一环,“怎么不算呢?”

另一个关键问题是,半导体行业的摩尔定律停滞。单纯靠堆shader core和存储资源,要达成品鉴会上Unreal Engine或者D5演示demo的60fps,现阶段所需付出的代价恐怕是任何玩家、工作室,乃至HPC数据中心都无法承担的;AI的诞生可以说是摩尔定律停滞时代的必然——因为这是系统层面提升面积与成本效益,外加能效的最佳选择。

这里面最应该担心的应该是DLSS的生态建设情况。因为要动用Tensor core加速,必然要求游戏和其他图形应用开发者在代码层面做支持。如果这个生态吸引不到足够多的开发者参与,那么Tensor core和AI技术才是白白浪费了。


好在品鉴会上,NVIDIA说DLSS 3在推出半年内的普及速度,相比于DLSS 2同期,已经快了7倍。到目前为止,支持DLSS 的游戏已经超过了300款,其中38款游戏和应用现已支持DLSS 3。

品鉴会现场展示了不少支持DLSS 3的游戏,不仅是《赛博朋克2077》这类在光追特性上需要耗费大量算力的3A游戏——尤其在overdrive超速模式诞生以后;还包括《暗黑破坏神IV》这样的网游——DLSS能够走进网游,应当也某种程度表明了这项技术大众化的开始。

现场工作人员说,《暗黑破坏神IV》1080p分辨率下,RTX 4060就能稳定在100fps以上;而“有些玩家期望做到极致,开4K分辨率,那么有了DLSS 3,也能达到60fps”。这是GPU这种大芯片在即将突破reticle limit的时代,AI在体验层面实打实的加成。

其实这次NVIDIA期望展示的重点,应该在国产网游对DLSS 3的积极支持上,包括《永劫无间》《鸣潮》的PC端,是尚未公开、未来很快就要加入DLSS 3支持的demo演示;现场还有尚未上线的《重生边缘》独家Demo,对光线追踪的完整支持引入,有了DLSS 3以后,RTX 4060玩2K分辨率也能有100+fps的帧率。

也有《无畏契约》这种追求低延迟,因此单独加入Reflex的FPS游戏——现场工作人员告诉我们目前排名前10的FPS游戏,9款都已经集成了Reflex。这些也都是NVIDIA图形生态的组成部分。

 

摩尔定律死了,显卡靠AI救赎

去年我们跟芯片行业内的不少企业高层聊元宇宙,大家都认同电子游戏就是元宇宙的某种雏形——玩家在里面消费、交流、游览…元宇宙作为虚拟世界,图形构建需要依托GPU——而元宇宙相比游戏会惠及更多人,GPU的市场还会有一次井喷。

也不光是元宇宙、电子游戏、专业视觉设计,社会数字化转型整体都对算力有着指数级增长的需求,则单靠摩尔定律支撑下GPU的图形和通用计算单元顶着,是真的不够看。何况摩尔定律还延续不下去了。

这时候我们看到,NVIDIA面向游戏在图形卡上加入用于AI计算的Tensor core,为游戏布局DLSS 3、ACE等各种AI技术。大体思路就是图形和AI一边渲染、一边生成像素,GeForce RTX 40系时代更像是未来世界的某种模板。GPU是在摩尔定律走不下去,单位面积再难成倍塞下晶体管时,获得了AI的救赎的。

当这种思路扩展到更大范围,不就是元宇宙和新时代的数字生活么?现阶段还真的只有NVIDIA这一家做到了牢牢把持图形与AI/HPC两边的生态,并且双方还正以相辅相成的姿态往前走。

责编:Illumi
阅读全文,请先
您可能感兴趣
在成本方面,使用特定水平AI的成本每12个月下降约10倍,较低的价格会促进更多使用。从2023年初的GPT-4到2024年中期的GPT-4o,每个token的价格下降了约150倍。
2024 年,全球半导体市场迎来了历史性的增长。销售额首次突破 6000 亿美元,达到 6276 亿美元(约 4.58 万亿元人民币)……
这笔巨额投资将重点支持基础研究、技术转化、应用实例与生态系统建设等关键领域。
在2024年的全球前十大半导体厂商中,三星电子以665.24亿美元的收入重新夺回了全球第一的位置,其收入同比增长了62.5%,市场份额占比达 10.6%。
DeepSeek此次招聘的薪酬待遇极为优厚,正式员工岗位大多采用“14薪”模式,起薪普遍超过2万元,部分高端岗位年薪可达百万元级别。
AI正稳步改变半导体行业,这一趋势在领先EDA公司和硅片代工厂表现得尤为突出。三大EDA工具制造商(Cadence、Synopsys和西门子EDA)已宣布与台积电合作,致力于为先进芯片制造节点开发AI驱动的设计流程。本文将简要回顾这些合作的现状。
全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
简化物联网连接:应用就绪型软件构建模块
别再盯着欧美了,日韩在全球半导体市场也是一股不可忽视的力量。韩国,按销售额来看,是全球半导体第二大国,仅次于美国。日本,半导体设备和材料领域的王者,在部分领域能做到近乎垄断。不只有三星和SK海力士,存
当地时间2025年2月10日,恩智浦半导体公司 (NXP) 宣布,已与高性能、节能和可编程离散神经处理单元 (NPU) 领域的行业领导者 Kinara 达成最终收购协议。此次收购将以全现金方式进行,
2月10日消息,天眼查App显示,近日,杉杉控股有限公司发生工商变更,周婷卸任法定代表人,并由董事长变更为董事;周顺和接任法定代表人并担任董事长;孙伟卸任董事职务。 2月7日,杉杉集团在宁波市鄞州区人
据业内人士2月11日透露,三星显示器近期限时推出名为“平衡假期”的特别假期。具体内容是,每周平均工作超过52小时的员工可获得三天带薪休假,每周工作超过60小时的员工可获得六天带薪休假。上个月,三星显示
点击蓝字 关注我们SUBSCRIBE to USImage: TASA总部位于东京的初创公司ArkEdge Space声称,其拍摄的可能是小型立方星(CubeSat)所拍摄的质量最高的地球照片(htt
2022年下半年以来,需求下降,芯片价格跳水,芯片行情趋向寒冷,拼价格、拼服务、拼账期成为常态,持续的低迷之下,芯片人都开始靠省钱过日子。同时,我们发现,行情冷淡的时候,订货、配单、PPV(Purch
近日,摩根士丹利发布了题为《The Humanoid 100: Mapping the Humanoid Robot Value Chain》的报告,该报告公布了全球人形机器人产业链百强企业榜单。这一
点击蓝字 关注我们SUBSCRIBE to US想象一下,有一种人工智能(AI)不仅仅遵循你的指令,还能自行决定如何实现你的目标。代理型人工智能(Agentic AI)正是如此:这是人工智能的一个新前
新春伊始,苏州工业园区企业以新促兴,开启新一年奋进之旅。2月10日上午,哈曼汽车电子系统(苏州)有限公司车载显示智能制造工厂开业。哈曼集团在该事业领域全球布局的第一条生产线将在这里投入使用,未来满产后
据路透社报道,宁德时代计划本周提交港股上市申请,筹资至少 50 亿美元(当前约 365.4 亿元人民币)。2024年12月,宁德时代表示,经公司股东大会审议通过后,最快在 18 个月内完成在港上市,并