都在谈AI PC，英伟达在这一局里地位如何？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

今年CES上，围绕AI PC的声音不绝于耳。不只是Intel，英伟达也在说AI PC。早就听说英伟达在AI领域的地位非同一般，那到了AI PC这儿，它还有优势吗？

这个时代谈到AI，硬件层面首先想到的一定是英伟达，以及英伟达的数据中心加速卡——A100, H100之类。不过实际上，最早用于AI计算的英伟达GPU是游戏显卡：GeForce GTX 580。也就是近代AI发展史最知名的ImageNet图像识别大赛上，有团队率先用英伟达GPU外加CUDA来跑卷积神经网络，随后开启GPU加速AI的新时代。

可见AI的GPU加速，发端还得是PC。所以虽然貌似AI PC这个市场概念的宣传晚于这波AI大潮，但推进生产力、拯救人类的，还得是臭打游戏的...

早两年的GTC上，黄仁勋虽然主要谈的都是AI和元宇宙，但他还在记者会上特地强调过，“别担心，游戏仍然是我们关注的重点。”截至去年10月末的Q3 FY24财季，英伟达游戏（Gaming）业务营收28.56亿美元——占到公司总营收的15.8%。这个数字和3年前游戏业务超过一半的营收占比已经完全不能比了。相对的，数据中心业务当季营收已经拔高到145.14亿美元。

但实际就营收基数来看，游戏业务当季仍然实现了81%的同比增长。28.56亿美元也是英伟达历史上游戏业务最出色的成绩。拉长时间线，近4年英伟达的游戏业务营收翻了超过一番。换做往常这种高增长是可以大唱赞歌的。架不住隔壁数据中心业务连续N个季度三位数增长，光芒太过耀眼…

对于英伟达现在的PC端——主要是游戏业务市场来说，实现高增长的业务机会，大概率也是脚踩着AI的风火轮，和数据中心业务一起一路狂飙。毕竟我们一直在说，边缘和端侧AI的市场潜在机会大于数据中心AI。于是AI PC自然也是英伟达接下来要发展的重点。CES期间，英伟达在媒体沟通会上就说：“今年CES，弥漫最浓重的气氛（biggest buzz）无疑就是AI PC了，而英伟达处于这一热点的中央。”

跟英伟达争抢AI PC风头的，还包括了Intel、AMD这样的老对手。虽说英伟达在AI HPC领域是老大，但边缘市场、AI PC领域可没人想要让着它。所以英伟达的AI PC究竟有何不同能够令其脱颖而出？我们尝试在今年的CES上找找答案。

英伟达AI PC现在发展到…

对于芯片厂商来说，AI PC的竞争基础自然是芯片。对英伟达而言，GPU对于AI的加速是由来已久的：尤其自Turing架构引入Tensor core以后，包括DLSS特性在内的AI加速也就有了。

2018年英伟达演示实时光追的星球大战demo。据说在Turing架构的GeForce RTX 20系显卡问世以前，这样一个demo需要4张面向数据中心的V100才能实现——V100当时的售价是6万美刀；而Turing架构凭借新增的光追单元RT core、AI单元Tensor core，外加一般的CUDA core，GeForce RTX 2080一张卡就做到。

英伟达提供的数据是，从2018年到现在，RTX显卡的AI性能提升了10倍。目前最新的第4代Tensor core达成了1300 TOPS的AI算力水平。

CES期间更新的GeForce RTX 40系Super显卡（包括RTX 4080 Super，4070 Ti Super，4070 Super）虽然并非本文要谈的重点，但这次发布除了按照常规去谈游戏性能提升，英伟达还特别强调了这几张卡在AI性能方面的进步：不仅标注Int8算力，还特别提及4080 Super在游戏AI帧生成（DLSS 3）、文生图（Stable Diffusion）、文生视频（Stable Video Diffusion）方面，相比于3080 Ti分别有2倍、1.7倍、1.5倍的速度提升。

不仅是增加算力单元，Super系这次统一提配存储资源（包括L2 cache和显存带宽）是着力于AI的典型表现。而这些宣传数字，以前好像只有在数据中心的通用加速卡（Hopper架构）和图形卡（Ada Lovelace架构的L系列）上才看得到，这会儿也能在GeForce显卡上见到了。可见这波AI PC的热潮是真的要来了。

单纯就算力水平，外加软件和生态可达成的有效算力，英伟达占据的AI PC生态位暂时也不是Intel和AMD可及的：毕竟4080 Super标称的AI算力是836 TOPS；另外两家用于AI PC的SoC这个数字还是两位数。而AI算力基本决定了AI PC的能力上限。Justin Walker（GeForce产品高级总监）在媒体会上说竞争对手应该并不存在“直接与我们竞争的产品”，“没有任何其他产品能够提供这个级别的价值和性能”。

另一方面是生态和软件相关的——这也是目前边缘AI推理竞争的关键。英伟达给出的数据是，当前RTX GPU出货量已经达到了至少1亿片，所以AI PC应用的硬件基础是广泛的。

英伟达通用计算加速卡与图形显卡的架构，在可编程和AI部分是保持了同步的。两者的同宗同源决定了GeForce显卡在执行AI工作时，与数据中心加速卡共享NVIDIA AI生态——所以我们多少会在某些AI研究中看到GeForce的身影，即便这可能不是英伟达的本意；现成的资源，加速AI应用也是很顺手。

不过大概是为了考虑更多爱好者和一般PC用户，也是要明确加速英伟达的AI PC生态发展——尤其是生成式AI：去年10月英伟达发布TensorRT-LLM for Windows，在Windows平台可用单卡GPU做LLM推理加速，尤其明确对GeForce RTX 40系显卡做出支持，让PC跑Llama2、Mistral这类模型时，速度快了4-5倍。

还有就是为Stable Diffusion WebUI做了个TensorRT扩展，文生图、图生图的速度也提升了2倍。

至于非生成式AI的其他AI应用就更不必多说了：这其中的一个典型代表是DLSS，已经从此前的AI超分，发展到AI补帧，再到最新的AI光线重建。DLSS基本可以认为是当代游戏和专业视觉领域的AI杀手级应用——所谓现在每8个像素，就有7个像素是AI生成的。

这次英伟达给我们现场展示用D5渲染器在一台GeForce RTX 4070笔记本上渲染某个包含光追的复杂场景，开关DLSS 3.5的流畅度差异，还是给我们留下了相当深刻的印象。

D5渲染器中的DLSS 3.5选单，包含超分、光线重建、帧生成几个选项

这次CES期间，英伟达针对生成式AI端侧生态的更新依然主要是两个方向：LLM和Stable Diffusion。Chat with RTX，基于RGA（retrieval-augmented generation）直接让LLM大语言模型与用户选择的文档或视频进行连接；也就是能够基于用户提供的数据，和LLM做更精准的个性化对话。

其次是针对Stable Diffusion XL和SDXL Turbo的TensorRT加速（同样是A1111的WebUI版Stable Diffusion），据说更新过后，这两个模型的速度快了60%。

听说英伟达有AI生态优势？什么优势？

就生态角度来看，英伟达和Intel、AMD的起点还是很不一样。不是说GeForce显卡的算力更高，而是NVIDIA AI全栈生态对于其他所有现存生态的碾压。毕竟这是个耕耘了十多年的生态——即便除了DLSS, DLAA（Deep Learning Anti-Aliasing）之类的应用以外，此前的NVIDIA AI生态耕耘不是特别着力在PC平台的，各种库、中间件基础也足够为AI PC的生态发展打底了——TensorRT-LLM for Windows不就是基于发展有些年头的TensorRT么？

以往几年的好些文章我们都谈过NVIDIA AI在做的各种五花八门的AI应用和工具，什么预训练模型、迁移学习、联邦学习、合成数据生成、部署工具、推理引擎等等；而且是跨汽车、机器人、医疗、行业边缘等不同领域。下面这张图中与平台层NVIDIA AI连线的系统软件，及上层的应用框架都属于其中组成部分——这还只是个大框架。

我们在2021年GTC上见到的Toy Jensen——光这个老黄卡通形象，其中就包含了Riva, Audio2Face, Animation Graph, MDL等在内的各种技术，大部分是AI相关的。应该说在整个电子产业内，有资格说一句具备“端到端”AI能力的企业，就只有英伟达这一家。当然这里的绝大部分都还是主要和训练相关的。

不过AI PC对英伟达而言也称得上手拿把掐。比如AI PC常被提到的视频会议背景虚化、眼神注视、画质增强之类的特性（Maxine框架的组成部分），在英伟达这儿都只能说是小巧。从图形的角度来看，PC上的DLSS本身已经被说得够多了；而单是前年亮相专门为游戏 mod 制作者们准备的 RTX Remix，在AI能力上基本就是竞争者难以复制的。不光是给老游戏加上光追和DLSS，还在于对老游戏中的贴图做推理，基于AI转为高清精美纹理。

CES期间，英伟达也宣布了RTX Remix今年1月就要开放beta版了。Mod制作者基于生成式AI就能对老游戏的低分辨率纹理做简单替换，而且这种AI纹理是“4k物理级精准”的，木头门、蜡烛、大理石表面的桌子、油漆桶这些要素都能基于人工智能“YY”出来。

Orbifold Studios用RTX Remix做的《半条命2》MOD游戏画面前后对比

RTX Remix反映的其实不只是英伟达想在mod领域一展拳脚，更多的是基于USD标准为Omniverse和元宇宙添砖加瓦，同时用到了AI技术。这就是另外的话题了——但RTX Remix看似这么个“小工具”的推出，就绝对不是其他市场参与者能随随便便做得出来的。

只不过上面这些更多体现的，可能主要还是英伟达在数据中心的AI生态能力。这些对AI PC而言有价值吗？

云边协同，是个思路

对于英伟达而言，可能更加符合直觉、能够给予AI PC发展助力的，就是利用其数据中心市场的优势。这其实还关联了另一个问题：如果说Co-pilot, Midjourney这些云上工具这么好用，我们为什么还要选择本地的Llama 2和Stable Diffusion呢？尤其在前两者基本还都是靠英伟达GPU作支撑的情况下。

当然AI不只是生成式AI，比如DLSS——那必须用本地资源，这是游戏的实时交互需求决定的。对于生成式AI而言，本地算力优势的常规回答是：安全、隐私、不需要联网、低延迟。

可能很多个人用户对数据安全不以为意。最近Trail of Bits才刚刚披露了苹果、AMD、高通等多品牌GPU的LeftoverLocals漏洞——借助GPU本地内存泄露，攻击者可以跨进程或者container边缘，监听LLM大预言模型给到其他用户的响应。换句话说你在云上与LLM的对话，别人是能看见的。这对企业和个人而言都是不可接受的。（英伟达倒是确认了，他们的设备目前没有受到该漏洞的影响）

除此之外，还有两个原因。其一是AI模型的个性化需求：从今年CES展来看，这个个性化就不光是用Stable Diffusion画小姐姐了，还在于未来AI PC作为“私人助理”这个角色存在时，为PC用户提供更为个人化的定制服务——这是个现在看来还是有点儿前瞻的发展方向。

至少到现在为止，我们认为有能力更快在PC上做到“个人AI模型”的就是英伟达了。比如这次更新的Chat with RTX，不就属于个性化模型的雏形吗？

其二是本地与云AI的结合，用行业的流行词叫“云边协同”。也就是说云和端是各司其职、各展所长的，那么Co-pilot与Llama 2也就没有冲突了；英伟达也能利用好其数据中心的市场与技术优势。

这类云边协同的例子现阶段就有。比如说视频会议时本地做基于AI的背景虚化、眼神注视，而云上Co-pilot还是能够用来总结会议内容；再比如Photoshop现在用Firefly实现图片的选取自动填充（Generative Fill）是基于云的，本地仍然可以做图片AI降噪、消除画面中多余对象之类的处理。

英伟达在这次CES上发布了更有云边协同必要性的“混合AI”应用NVIDIA ACE（Avatar Cloud Engine）。ACE最早是在2022年发布的，去年Computex上英伟达又发布了NVIDIA ACE游戏开发版——这个技术平台能让游戏里的NPC具备与玩家进行生成式AI对话的能力。

所谓的基于“混合AI”，是ACE的实现需要本地AI算力与云上AI算力共同完成。我们在CES现场看到了英伟达演示这项技术。首先玩家与NPC说话——这个过程需要基于语音转文本的自动语音识别模型（英伟达的Riva），推理过程基于PC端的GeForce显卡；

随后文字信息发往云上的推理服务器，由服务器基于LLM大语言模型进行推理，得到NPC的回复内容；第三步同样是在云上，将这些文字回复转为语音；语音信息返回到本地PC，本地PC再基于英伟达的Audio2Face，将声音和NPC的唇形、表情做匹配；最终通过游戏引擎渲染呈现出画面。

实际上，英伟达的演示不止玩家可与游戏NPC进行对话，NPC与NPC之间也能进行基于这套流程的对话，每次的对话内容都还不一样。而且玩家与NPC对话，能让NPC做出一些动作反映：比如现场英伟达就给我们展示了，基于对话内容，让拉面店老板招待饮料、不同口味的拉面，换个符合气氛的灯光等；甚至可以针对桌子上的某个东西问他，这是什么，NPC也能娓娓道来地述说这东西的来由，以及有什么特殊意义。

而且话题是完全自由、没有限定的，想聊什么都可以，NPC也基于自己的人物设定来做出回应。这不就是多年前人们追求的NPC完美智能化吗？也才真正有了NPC是鲜活个体的游戏体验。有没有元宇宙的既视感了？

面向开发者合作伙伴，英伟达这次主要是发布了Ace Production Microservices（ACE产品微服务）。开发者可以使用上述英伟达的Audio2Face和Riva两个模型——将模型融入到游戏中。其他部分构成，英伟达选择了与Convai合作——这是能够让开发者更简单地集成基于生成式AI游戏角色的平台。

Convai把Ace Production Microservices融入到了其框架流程中。在Convai的ACE实现流程里，云上LLM+RAG做出NPC响应的部分，以及文字转语音的部分都可由Convai解决；另外Convai向游戏开发者提供角色API，可给出包括角色背景故事、人格、动作、场景感知、长期记忆之类的构成，最终基于Convai的虚幻引擎插件来输出游戏中的AI NPC。

英伟达现场工作人员告诉我们，虽然目前还没有基于ACE的成品游戏问世，但这项服务已经和包括米哈游、网易游戏、腾讯、育碧、掌趣、Inworld等在内的开发者达成合作，准备将ACE技术用到游戏和应用中。当然他们也特别强调了NPC可以讲不同国家的语言，包括中文——料想这一点应当主要与服务中的模型相关。

这应该是GeForce高级副总裁Jeff Fisher在CES的Special Address上说“生成式AI提供远多于互联网的机会，它将改变我们与游戏的交互方式”这句话的原因。其实仔细想想，元宇宙本身就是游戏的终极形态，而填充元宇宙内容的方法就是以ACE为代表的生成式AI。

AI PC，基础 vs 高阶能力

以上只谈到了英伟达在CES上的一部分内容发布。除此之外，相关于GeForce的发布我们还看到了：

（1）iStock的生成式AI发布，基于英伟达Picasso平台——基于GettyImage的图片库，进行有版权保护的文生图，以及图片扩写、图片中的对象替换、画面场景不同层级剥离；

（2）与Twitch, OBS合作，发布Twitch Enhanced Broadcasting，在采用RTX显卡的设备上进行游戏直播，支持5条并发流，且在不同的直播视频流触达的设备上，可以不同的分辨率和帧率显示；且当前Twitch正尝试基于RTX显卡的4K AV1格式流播；

（3）AI加强的RTX Video HDR，可理解为基于AI把SDR视频动态范围扩展到HDR；

（4）GeForce NOW云游戏加入《使命与召唤：现代战争3》《暗黑破坏神IV》《守望先锋2》《星穹铁道》《Pax Dei》等游戏；同时2月开始为玩家开启Day Pass（一日票）这一试玩性质的选择。

不过这些应当暂时和国内的用户关系都不大，就不做详述了，我们也在活动现场表达了对于英伟达与国内同类开发者合作的期望。另外，还有来自OEM厂商的一波采用GeForce RTX 40系显卡的AI PC笔记本上市，包括Dell XPS 14, 三星Galaxy Book4 Ultra, 联想Yoga Pro 9i, ROG幻16等…“AI算力覆盖从130 TOPS到635 TOPS”…看看，现在上个独显笔记本都要强调AI算力了…

最后想谈个简单的话题。很多年前GPU还主要用作图形渲染时，Intel推广自家核显是不排斥英伟达和AMD独显的。当时核显与独显的关系更像是核显提供入门级的图形渲染能力，独显则补充供给图形计算的高阶需求——包括3A游戏和专业视觉应用。

那么为什么到了AI时代，几方似乎就不在一个频道上了呢？我们猜测，一方面当代芯片厂商普遍在推行XPU策略、构建自有生态护城河——AMD, Intel, 苹果, 高通, Arm都是这个思路；

其次是微软作为操作系统供应商，在图形加速卡发展前期是充当了标准制定者的角色的，DirectX成为Windows平台事实上的图形标准；而现在，当GPU用于AI计算时，微软这一角色存在着大量不确定性——具体的原因又可以专门写篇文章了，受限于篇幅不做赘述；

这就导致了至少到目前为止，芯片企业普遍在推自家的API与开发生态——而且似乎不同芯片企业的这一态度还比较坚定；在这个阶段，Intel, AMD与英伟达暂时形成了完全的竞争关系。

未来AI PC生态会向哪个方向走未为可知。不过我们认为，起码现阶段Intel与AMD的AI PC提供的主要还是PC平台的AI与生成式AI基础能力。如前文所述，不仅是这两家提供的端侧AI算力有限，而且在于开发生态发展相对早期。

实际上英伟达现如今的AI PC生态开发也只能说是早期。但由于起点高，英伟达AI PC更有机会成为高阶AI应用的源头。不过这仍取决于将来谁更快抢占了AI PC的生态制高点：在这一局里，英伟达显然是具备了先发优势与AI技术储备的。尤其在AI有革新游戏行业潜力的当下，英伟达大概也更有主场优势，DLSS, RTX Remix, ACE都是个中写照。

责编：Illumi

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

处理器/DSP 消费电子人工智能

都在谈AI PC，英伟达在这一局里地位如何？

英伟达AI PC现在发展到…

听说英伟达有AI生态优势？什么优势？

云边协同，是个思路

AI PC，基础 vs 高阶能力

杂志声明