今年CES上,围绕AI PC的声音不绝于耳。不只是Intel,英伟达也在说AI PC。早就听说英伟达在AI领域的地位非同一般,那到了AI PC这儿,它还有优势吗?

这个时代谈到AI,硬件层面首先想到的一定是英伟达,以及英伟达的数据中心加速卡——A100, H100之类。不过实际上,最早用于AI计算的英伟达GPU是游戏显卡:GeForce GTX 580。也就是近代AI发展史最知名的ImageNet图像识别大赛上,有团队率先用英伟达GPU外加CUDA来跑卷积神经网络,随后开启GPU加速AI的新时代。

可见AI的GPU加速,发端还得是PC。所以虽然貌似AI PC这个市场概念的宣传晚于这波AI大潮,但推进生产力、拯救人类的,还得是臭打游戏的...

早两年的GTC上,黄仁勋虽然主要谈的都是AI和元宇宙,但他还在记者会上特地强调过,“别担心,游戏仍然是我们关注的重点。”截至去年10月末的Q3 FY24财季,英伟达游戏(Gaming)业务营收28.56亿美元——占到公司总营收的15.8%。这个数字和3年前游戏业务超过一半的营收占比已经完全不能比了。相对的,数据中心业务当季营收已经拔高到145.14亿美元。

但实际就营收基数来看,游戏业务当季仍然实现了81%的同比增长。28.56亿美元也是英伟达历史上游戏业务最出色的成绩。拉长时间线,近4年英伟达的游戏业务营收翻了超过一番。换做往常这种高增长是可以大唱赞歌的。架不住隔壁数据中心业务连续N个季度三位数增长,光芒太过耀眼…

对于英伟达现在的PC端——主要是游戏业务市场来说,实现高增长的业务机会,大概率也是脚踩着AI的风火轮,和数据中心业务一起一路狂飙。毕竟我们一直在说,边缘和端侧AI的市场潜在机会大于数据中心AI。于是AI PC自然也是英伟达接下来要发展的重点。CES期间,英伟达在媒体沟通会上就说:“今年CES,弥漫最浓重的气氛(biggest buzz)无疑就是AI PC了,而英伟达处于这一热点的中央。”

跟英伟达争抢AI PC风头的,还包括了Intel、AMD这样的老对手。虽说英伟达在AI HPC领域是老大,但边缘市场、AI PC领域可没人想要让着它。所以英伟达的AI PC究竟有何不同能够令其脱颖而出?我们尝试在今年的CES上找找答案。

 

英伟达AI PC现在发展到

对于芯片厂商来说,AI PC的竞争基础自然是芯片。对英伟达而言,GPU对于AI的加速是由来已久的:尤其自Turing架构引入Tensor core以后,包括DLSS特性在内的AI加速也就有了。

2018年英伟达演示实时光追的星球大战demo。据说在Turing架构的GeForce RTX 20系显卡问世以前,这样一个demo需要4张面向数据中心的V100才能实现——V100当时的售价是6万美刀;而Turing架构凭借新增的光追单元RT core、AI单元Tensor core,外加一般的CUDA core,GeForce RTX 2080一张卡就做到。

英伟达提供的数据是,从2018年到现在,RTX显卡的AI性能提升了10倍。目前最新的第4代Tensor core达成了1300 TOPS的AI算力水平。

CES期间更新的GeForce RTX 40系Super显卡(包括RTX 4080 Super,4070 Ti Super,4070 Super)虽然并非本文要谈的重点,但这次发布除了按照常规去谈游戏性能提升,英伟达还特别强调了这几张卡在AI性能方面的进步:不仅标注Int8算力,还特别提及4080 Super在游戏AI帧生成(DLSS 3)、文生图(Stable Diffusion)、文生视频(Stable Video Diffusion)方面,相比于3080 Ti分别有2倍、1.7倍、1.5倍的速度提升。

不仅是增加算力单元,Super系这次统一提配存储资源(包括L2 cache和显存带宽)是着力于AI的典型表现。而这些宣传数字,以前好像只有在数据中心的通用加速卡(Hopper架构)和图形卡(Ada Lovelace架构的L系列)上才看得到,这会儿也能在GeForce显卡上见到了。可见这波AI PC的热潮是真的要来了。

单纯就算力水平,外加软件和生态可达成的有效算力,英伟达占据的AI PC生态位暂时也不是Intel和AMD可及的:毕竟4080 Super标称的AI算力是836 TOPS;另外两家用于AI PC的SoC这个数字还是两位数。而AI算力基本决定了AI PC的能力上限。Justin Walker(GeForce产品高级总监)在媒体会上说竞争对手应该并不存在“直接与我们竞争的产品”,“没有任何其他产品能够提供这个级别的价值和性能”。

另一方面是生态和软件相关的——这也是目前边缘AI推理竞争的关键。英伟达给出的数据是,当前RTX GPU出货量已经达到了至少1亿片,所以AI PC应用的硬件基础是广泛的。

英伟达通用计算加速卡与图形显卡的架构,在可编程和AI部分是保持了同步的。两者的同宗同源决定了GeForce显卡在执行AI工作时,与数据中心加速卡共享NVIDIA AI生态——所以我们多少会在某些AI研究中看到GeForce的身影,即便这可能不是英伟达的本意;现成的资源,加速AI应用也是很顺手。

不过大概是为了考虑更多爱好者和一般PC用户,也是要明确加速英伟达的AI PC生态发展——尤其是生成式AI:去年10月英伟达发布TensorRT-LLM for Windows,在Windows平台可用单卡GPU做LLM推理加速,尤其明确对GeForce RTX 40系显卡做出支持,让PC跑Llama2、Mistral这类模型时,速度快了4-5倍。

还有就是为Stable Diffusion WebUI做了个TensorRT扩展,文生图、图生图的速度也提升了2倍。

至于非生成式AI的其他AI应用就更不必多说了:这其中的一个典型代表是DLSS,已经从此前的AI超分,发展到AI补帧,再到最新的AI光线重建。DLSS基本可以认为是当代游戏和专业视觉领域的AI杀手级应用——所谓现在每8个像素,就有7个像素是AI生成的。

这次英伟达给我们现场展示用D5渲染器在一台GeForce RTX 4070笔记本上渲染某个包含光追的复杂场景,开关DLSS 3.5的流畅度差异,还是给我们留下了相当深刻的印象。

D5渲染器中的DLSS 3.5选单,包含超分、光线重建、帧生成几个选项

这次CES期间,英伟达针对生成式AI端侧生态的更新依然主要是两个方向:LLM和Stable Diffusion。Chat with RTX,基于RGA(retrieval-augmented generation)直接让LLM大语言模型与用户选择的文档或视频进行连接;也就是能够基于用户提供的数据,和LLM做更精准的个性化对话。

其次是针对Stable Diffusion XL和SDXL Turbo的TensorRT加速(同样是A1111的WebUI版Stable Diffusion),据说更新过后,这两个模型的速度快了60%。

 

听说英伟达AI生态优势?什么优势?

就生态角度来看,英伟达和Intel、AMD的起点还是很不一样。不是说GeForce显卡的算力更高,而是NVIDIA AI全栈生态对于其他所有现存生态的碾压。毕竟这是个耕耘了十多年的生态——即便除了DLSS, DLAA(Deep Learning Anti-Aliasing)之类的应用以外,此前的NVIDIA AI生态耕耘不是特别着力在PC平台的,各种库、中间件基础也足够为AI PC的生态发展打底了——TensorRT-LLM for Windows不就是基于发展有些年头的TensorRT么?

以往几年的好些文章我们都谈过NVIDIA AI在做的各种五花八门的AI应用和工具,什么预训练模型、迁移学习、联邦学习、合成数据生成、部署工具、推理引擎等等;而且是跨汽车、机器人、医疗、行业边缘等不同领域。下面这张图中与平台层NVIDIA AI连线的系统软件,及上层的应用框架都属于其中组成部分——这还只是个大框架。

我们在2021年GTC上见到的Toy Jensen——光这个老黄卡通形象,其中就包含了Riva, Audio2Face, Animation Graph, MDL等在内的各种技术,大部分是AI相关的。应该说在整个电子产业内,有资格说一句具备“端到端”AI能力的企业,就只有英伟达这一家。当然这里的绝大部分都还是主要和训练相关的。

不过AI PC对英伟达而言也称得上手拿把掐。比如AI PC常被提到的视频会议背景虚化、眼神注视、画质增强之类的特性(Maxine框架的组成部分),在英伟达这儿都只能说是小巧。从图形的角度来看,PC上的DLSS本身已经被说得够多了;而单是前年亮相专门为游戏mod制作者们准备的RTX Remix,在AI能力上基本就是竞争者难以复制的。不光是给老游戏加上光追和DLSS,还在于对老游戏中的贴图做推理,基于AI转为高清精美纹理。

CES期间,英伟达也宣布了RTX Remix今年1月就要开放beta版了。Mod制作者基于生成式AI就能对老游戏的低分辨率纹理做简单替换,而且这种AI纹理是“4k物理级精准”的,木头门、蜡烛、大理石表面的桌子、油漆桶这些要素都能基于人工智能“YY”出来。

Orbifold Studios用RTX Remix做的《半条命2》MOD游戏画面前后对比

RTX Remix反映的其实不只是英伟达想在mod领域一展拳脚,更多的是基于USD标准为Omniverse和元宇宙添砖加瓦,同时用到了AI技术。这就是另外的话题了——但RTX Remix看似这么个“小工具”的推出,就绝对不是其他市场参与者能随随便便做得出来的。

只不过上面这些更多体现的,可能主要还是英伟达在数据中心的AI生态能力。这些对AI PC而言有价值吗?

 

云边协同,是个思路

对于英伟达而言,可能更加符合直觉、能够给予AI PC发展助力的,就是利用其数据中心市场的优势。这其实还关联了另一个问题:如果说Co-pilot, Midjourney这些云上工具这么好用,我们为什么还要选择本地的Llama 2和Stable Diffusion呢?尤其在前两者基本还都是靠英伟达GPU作支撑的情况下。

当然AI不只是生成式AI,比如DLSS——那必须用本地资源,这是游戏的实时交互需求决定的。对于生成式AI而言,本地算力优势的常规回答是:安全、隐私、不需要联网、低延迟。

可能很多个人用户对数据安全不以为意。最近Trail of Bits才刚刚披露了苹果、AMD、高通等多品牌GPU的LeftoverLocals漏洞——借助GPU本地内存泄露,攻击者可以跨进程或者container边缘,监听LLM大预言模型给到其他用户的响应。换句话说你在云上与LLM的对话,别人是能看见的。这对企业和个人而言都是不可接受的。(英伟达倒是确认了,他们的设备目前没有受到该漏洞的影响)

除此之外,还有两个原因。其一是AI模型的个性化需求:从今年CES展来看,这个个性化就不光是用Stable Diffusion画小姐姐了,还在于未来AI PC作为“私人助理”这个角色存在时,为PC用户提供更为个人化的定制服务——这是个现在看来还是有点儿前瞻的发展方向。

至少到现在为止,我们认为有能力更快在PC上做到“个人AI模型”的就是英伟达了。比如这次更新的Chat with RTX,不就属于个性化模型的雏形吗?

其二是本地与云AI的结合,用行业的流行词叫“云边协同”。也就是说云和端是各司其职、各展所长的,那么Co-pilot与Llama 2也就没有冲突了;英伟达也能利用好其数据中心的市场与技术优势。

这类云边协同的例子现阶段就有。比如说视频会议时本地做基于AI的背景虚化、眼神注视,而云上Co-pilot还是能够用来总结会议内容;再比如Photoshop现在用Firefly实现图片的选取自动填充(Generative Fill)是基于云的,本地仍然可以做图片AI降噪、消除画面中多余对象之类的处理。

英伟达在这次CES上发布了更有云边协同必要性的“混合AI”应用NVIDIA ACE(Avatar Cloud Engine)。ACE最早是在2022年发布的,去年Computex上英伟达又发布了NVIDIA ACE游戏开发版——这个技术平台能让游戏里的NPC具备与玩家进行生成式AI对话的能力。


所谓的基于“混合AI”,是ACE的实现需要本地AI算力与云上AI算力共同完成。我们在CES现场看到了英伟达演示这项技术。首先玩家与NPC说话——这个过程需要基于语音转文本的自动语音识别模型(英伟达的Riva),推理过程基于PC端的GeForce显卡;

随后文字信息发往云上的推理服务器,由服务器基于LLM大语言模型进行推理,得到NPC的回复内容;第三步同样是在云上,将这些文字回复转为语音;语音信息返回到本地PC,本地PC再基于英伟达的Audio2Face,将声音和NPC的唇形、表情做匹配;最终通过游戏引擎渲染呈现出画面。

实际上,英伟达的演示不止玩家可与游戏NPC进行对话,NPC与NPC之间也能进行基于这套流程的对话,每次的对话内容都还不一样。而且玩家与NPC对话,能让NPC做出一些动作反映:比如现场英伟达就给我们展示了,基于对话内容,让拉面店老板招待饮料、不同口味的拉面,换个符合气氛的灯光等;甚至可以针对桌子上的某个东西问他,这是什么,NPC也能娓娓道来地述说这东西的来由,以及有什么特殊意义。

而且话题是完全自由、没有限定的,想聊什么都可以,NPC也基于自己的人物设定来做出回应。这不就是多年前人们追求的NPC完美智能化吗?也才真正有了NPC是鲜活个体的游戏体验。有没有元宇宙的既视感了?

面向开发者合作伙伴,英伟达这次主要是发布了Ace Production Microservices(ACE产品微服务)。开发者可以使用上述英伟达的Audio2Face和Riva两个模型——将模型融入到游戏中。其他部分构成,英伟达选择了与Convai合作——这是能够让开发者更简单地集成基于生成式AI游戏角色的平台。

Convai把Ace Production Microservices融入到了其框架流程中。在Convai的ACE实现流程里,云上LLM+RAG做出NPC响应的部分,以及文字转语音的部分都可由Convai解决;另外Convai向游戏开发者提供角色API,可给出包括角色背景故事、人格、动作、场景感知、长期记忆之类的构成,最终基于Convai的虚幻引擎插件来输出游戏中的AI NPC。

英伟达现场工作人员告诉我们,虽然目前还没有基于ACE的成品游戏问世,但这项服务已经和包括米哈游、网易游戏、腾讯、育碧、掌趣、Inworld等在内的开发者达成合作,准备将ACE技术用到游戏和应用中。当然他们也特别强调了NPC可以讲不同国家的语言,包括中文——料想这一点应当主要与服务中的模型相关。

这应该是GeForce高级副总裁Jeff Fisher在CES的Special Address上说“生成式AI提供远多于互联网的机会,它将改变我们与游戏的交互方式”这句话的原因。其实仔细想想,元宇宙本身就是游戏的终极形态,而填充元宇宙内容的方法就是以ACE为代表的生成式AI。

 

AI PC,基础 vs 高阶能力

以上只谈到了英伟达在CES上的一部分内容发布。除此之外,相关于GeForce的发布我们还看到了:

(1)iStock的生成式AI发布,基于英伟达Picasso平台——基于GettyImage的图片库,进行有版权保护的文生图,以及图片扩写、图片中的对象替换、画面场景不同层级剥离;

(2)与Twitch, OBS合作,发布Twitch Enhanced Broadcasting,在采用RTX显卡的设备上进行游戏直播,支持5条并发流,且在不同的直播视频流触达的设备上,可以不同的分辨率和帧率显示;且当前Twitch正尝试基于RTX显卡的4K AV1格式流播;

(3)AI加强的RTX Video HDR,可理解为基于AI把SDR视频动态范围扩展到HDR;

(4)GeForce NOW云游戏加入《使命与召唤:现代战争3》《暗黑破坏神IV》《守望先锋2》《星穹铁道》《Pax Dei》等游戏;同时2月开始为玩家开启Day Pass(一日票)这一试玩性质的选择。

不过这些应当暂时和国内的用户关系都不大,就不做详述了,我们也在活动现场表达了对于英伟达与国内同类开发者合作的期望。另外,还有来自OEM厂商的一波采用GeForce RTX 40系显卡的AI PC笔记本上市,包括Dell XPS 14, 三星Galaxy Book4 Ultra, 联想Yoga Pro 9i, ROG幻16等…“AI算力覆盖从130 TOPS到635 TOPS”…看看,现在上个独显笔记本都要强调AI算力了…

最后想谈个简单的话题。很多年前GPU还主要用作图形渲染时,Intel推广自家核显是不排斥英伟达和AMD独显的。当时核显与独显的关系更像是核显提供入门级的图形渲染能力,独显则补充供给图形计算的高阶需求——包括3A游戏和专业视觉应用。

那么为什么到了AI时代,几方似乎就不在一个频道上了呢?我们猜测,一方面当代芯片厂商普遍在推行XPU策略、构建自有生态护城河——AMD, Intel, 苹果, 高通, Arm都是这个思路;

其次是微软作为操作系统供应商,在图形加速卡发展前期是充当了标准制定者的角色的,DirectX成为Windows平台事实上的图形标准;而现在,当GPU用于AI计算时,微软这一角色存在着大量不确定性——具体的原因又可以专门写篇文章了,受限于篇幅不做赘述;

这就导致了至少到目前为止,芯片企业普遍在推自家的API与开发生态——而且似乎不同芯片企业的这一态度还比较坚定;在这个阶段,Intel, AMD与英伟达暂时形成了完全的竞争关系。

未来AI PC生态会向哪个方向走未为可知。不过我们认为,起码现阶段Intel与AMD的AI PC提供的主要还是PC平台的AI与生成式AI基础能力。如前文所述,不仅是这两家提供的端侧AI算力有限,而且在于开发生态发展相对早期。

实际上英伟达现如今的AI PC生态开发也只能说是早期。但由于起点高,英伟达AI PC更有机会成为高阶AI应用的源头。不过这仍取决于将来谁更快抢占了AI PC的生态制高点:在这一局里,英伟达显然是具备了先发优势与AI技术储备的。尤其在AI有革新游戏行业潜力的当下,英伟达大概也更有主场优势,DLSS, RTX Remix, ACE都是个中写照。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
虽然英特尔CEO基辛格突然退休的消息令市场感到意外,但投资者似乎将其解读为利好信号,英特尔甚至股价一度上涨。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题