今年CES上,围绕AI PC的声音不绝于耳。不只是Intel,英伟达也在说AI PC。早就听说英伟达在AI领域的地位非同一般,那到了AI PC这儿,它还有优势吗?

这个时代谈到AI,硬件层面首先想到的一定是英伟达,以及英伟达的数据中心加速卡——A100, H100之类。不过实际上,最早用于AI计算的英伟达GPU是游戏显卡:GeForce GTX 580。也就是近代AI发展史最知名的ImageNet图像识别大赛上,有团队率先用英伟达GPU外加CUDA来跑卷积神经网络,随后开启GPU加速AI的新时代。

可见AI的GPU加速,发端还得是PC。所以虽然貌似AI PC这个市场概念的宣传晚于这波AI大潮,但推进生产力、拯救人类的,还得是臭打游戏的...

早两年的GTC上,黄仁勋虽然主要谈的都是AI和元宇宙,但他还在记者会上特地强调过,“别担心,游戏仍然是我们关注的重点。”截至去年10月末的Q3 FY24财季,英伟达游戏(Gaming)业务营收28.56亿美元——占到公司总营收的15.8%。这个数字和3年前游戏业务超过一半的营收占比已经完全不能比了。相对的,数据中心业务当季营收已经拔高到145.14亿美元。

但实际就营收基数来看,游戏业务当季仍然实现了81%的同比增长。28.56亿美元也是英伟达历史上游戏业务最出色的成绩。拉长时间线,近4年英伟达的游戏业务营收翻了超过一番。换做往常这种高增长是可以大唱赞歌的。架不住隔壁数据中心业务连续N个季度三位数增长,光芒太过耀眼…

对于英伟达现在的PC端——主要是游戏业务市场来说,实现高增长的业务机会,大概率也是脚踩着AI的风火轮,和数据中心业务一起一路狂飙。毕竟我们一直在说,边缘和端侧AI的市场潜在机会大于数据中心AI。于是AI PC自然也是英伟达接下来要发展的重点。CES期间,英伟达在媒体沟通会上就说:“今年CES,弥漫最浓重的气氛(biggest buzz)无疑就是AI PC了,而英伟达处于这一热点的中央。”

跟英伟达争抢AI PC风头的,还包括了Intel、AMD这样的老对手。虽说英伟达在AI HPC领域是老大,但边缘市场、AI PC领域可没人想要让着它。所以英伟达的AI PC究竟有何不同能够令其脱颖而出?我们尝试在今年的CES上找找答案。

 

英伟达AI PC现在发展到

对于芯片厂商来说,AI PC的竞争基础自然是芯片。对英伟达而言,GPU对于AI的加速是由来已久的:尤其自Turing架构引入Tensor core以后,包括DLSS特性在内的AI加速也就有了。

2018年英伟达演示实时光追的星球大战demo。据说在Turing架构的GeForce RTX 20系显卡问世以前,这样一个demo需要4张面向数据中心的V100才能实现——V100当时的售价是6万美刀;而Turing架构凭借新增的光追单元RT core、AI单元Tensor core,外加一般的CUDA core,GeForce RTX 2080一张卡就做到。

英伟达提供的数据是,从2018年到现在,RTX显卡的AI性能提升了10倍。目前最新的第4代Tensor core达成了1300 TOPS的AI算力水平。

CES期间更新的GeForce RTX 40系Super显卡(包括RTX 4080 Super,4070 Ti Super,4070 Super)虽然并非本文要谈的重点,但这次发布除了按照常规去谈游戏性能提升,英伟达还特别强调了这几张卡在AI性能方面的进步:不仅标注Int8算力,还特别提及4080 Super在游戏AI帧生成(DLSS 3)、文生图(Stable Diffusion)、文生视频(Stable Video Diffusion)方面,相比于3080 Ti分别有2倍、1.7倍、1.5倍的速度提升。

不仅是增加算力单元,Super系这次统一提配存储资源(包括L2 cache和显存带宽)是着力于AI的典型表现。而这些宣传数字,以前好像只有在数据中心的通用加速卡(Hopper架构)和图形卡(Ada Lovelace架构的L系列)上才看得到,这会儿也能在GeForce显卡上见到了。可见这波AI PC的热潮是真的要来了。

单纯就算力水平,外加软件和生态可达成的有效算力,英伟达占据的AI PC生态位暂时也不是Intel和AMD可及的:毕竟4080 Super标称的AI算力是836 TOPS;另外两家用于AI PC的SoC这个数字还是两位数。而AI算力基本决定了AI PC的能力上限。Justin Walker(GeForce产品高级总监)在媒体会上说竞争对手应该并不存在“直接与我们竞争的产品”,“没有任何其他产品能够提供这个级别的价值和性能”。

另一方面是生态和软件相关的——这也是目前边缘AI推理竞争的关键。英伟达给出的数据是,当前RTX GPU出货量已经达到了至少1亿片,所以AI PC应用的硬件基础是广泛的。

英伟达通用计算加速卡与图形显卡的架构,在可编程和AI部分是保持了同步的。两者的同宗同源决定了GeForce显卡在执行AI工作时,与数据中心加速卡共享NVIDIA AI生态——所以我们多少会在某些AI研究中看到GeForce的身影,即便这可能不是英伟达的本意;现成的资源,加速AI应用也是很顺手。

不过大概是为了考虑更多爱好者和一般PC用户,也是要明确加速英伟达的AI PC生态发展——尤其是生成式AI:去年10月英伟达发布TensorRT-LLM for Windows,在Windows平台可用单卡GPU做LLM推理加速,尤其明确对GeForce RTX 40系显卡做出支持,让PC跑Llama2、Mistral这类模型时,速度快了4-5倍。

还有就是为Stable Diffusion WebUI做了个TensorRT扩展,文生图、图生图的速度也提升了2倍。

至于非生成式AI的其他AI应用就更不必多说了:这其中的一个典型代表是DLSS,已经从此前的AI超分,发展到AI补帧,再到最新的AI光线重建。DLSS基本可以认为是当代游戏和专业视觉领域的AI杀手级应用——所谓现在每8个像素,就有7个像素是AI生成的。

这次英伟达给我们现场展示用D5渲染器在一台GeForce RTX 4070笔记本上渲染某个包含光追的复杂场景,开关DLSS 3.5的流畅度差异,还是给我们留下了相当深刻的印象。

D5渲染器中的DLSS 3.5选单,包含超分、光线重建、帧生成几个选项

这次CES期间,英伟达针对生成式AI端侧生态的更新依然主要是两个方向:LLM和Stable Diffusion。Chat with RTX,基于RGA(retrieval-augmented generation)直接让LLM大语言模型与用户选择的文档或视频进行连接;也就是能够基于用户提供的数据,和LLM做更精准的个性化对话。

其次是针对Stable Diffusion XL和SDXL Turbo的TensorRT加速(同样是A1111的WebUI版Stable Diffusion),据说更新过后,这两个模型的速度快了60%。

 

听说英伟达AI生态优势?什么优势?

就生态角度来看,英伟达和Intel、AMD的起点还是很不一样。不是说GeForce显卡的算力更高,而是NVIDIA AI全栈生态对于其他所有现存生态的碾压。毕竟这是个耕耘了十多年的生态——即便除了DLSS, DLAA(Deep Learning Anti-Aliasing)之类的应用以外,此前的NVIDIA AI生态耕耘不是特别着力在PC平台的,各种库、中间件基础也足够为AI PC的生态发展打底了——TensorRT-LLM for Windows不就是基于发展有些年头的TensorRT么?

以往几年的好些文章我们都谈过NVIDIA AI在做的各种五花八门的AI应用和工具,什么预训练模型、迁移学习、联邦学习、合成数据生成、部署工具、推理引擎等等;而且是跨汽车、机器人、医疗、行业边缘等不同领域。下面这张图中与平台层NVIDIA AI连线的系统软件,及上层的应用框架都属于其中组成部分——这还只是个大框架。

我们在2021年GTC上见到的Toy Jensen——光这个老黄卡通形象,其中就包含了Riva, Audio2Face, Animation Graph, MDL等在内的各种技术,大部分是AI相关的。应该说在整个电子产业内,有资格说一句具备“端到端”AI能力的企业,就只有英伟达这一家。当然这里的绝大部分都还是主要和训练相关的。

不过AI PC对英伟达而言也称得上手拿把掐。比如AI PC常被提到的视频会议背景虚化、眼神注视、画质增强之类的特性(Maxine框架的组成部分),在英伟达这儿都只能说是小巧。从图形的角度来看,PC上的DLSS本身已经被说得够多了;而单是前年亮相专门为游戏mod制作者们准备的RTX Remix,在AI能力上基本就是竞争者难以复制的。不光是给老游戏加上光追和DLSS,还在于对老游戏中的贴图做推理,基于AI转为高清精美纹理。

CES期间,英伟达也宣布了RTX Remix今年1月就要开放beta版了。Mod制作者基于生成式AI就能对老游戏的低分辨率纹理做简单替换,而且这种AI纹理是“4k物理级精准”的,木头门、蜡烛、大理石表面的桌子、油漆桶这些要素都能基于人工智能“YY”出来。

Orbifold Studios用RTX Remix做的《半条命2》MOD游戏画面前后对比

RTX Remix反映的其实不只是英伟达想在mod领域一展拳脚,更多的是基于USD标准为Omniverse和元宇宙添砖加瓦,同时用到了AI技术。这就是另外的话题了——但RTX Remix看似这么个“小工具”的推出,就绝对不是其他市场参与者能随随便便做得出来的。

只不过上面这些更多体现的,可能主要还是英伟达在数据中心的AI生态能力。这些对AI PC而言有价值吗?

 

云边协同,是个思路

对于英伟达而言,可能更加符合直觉、能够给予AI PC发展助力的,就是利用其数据中心市场的优势。这其实还关联了另一个问题:如果说Co-pilot, Midjourney这些云上工具这么好用,我们为什么还要选择本地的Llama 2和Stable Diffusion呢?尤其在前两者基本还都是靠英伟达GPU作支撑的情况下。

当然AI不只是生成式AI,比如DLSS——那必须用本地资源,这是游戏的实时交互需求决定的。对于生成式AI而言,本地算力优势的常规回答是:安全、隐私、不需要联网、低延迟。

可能很多个人用户对数据安全不以为意。最近Trail of Bits才刚刚披露了苹果、AMD、高通等多品牌GPU的LeftoverLocals漏洞——借助GPU本地内存泄露,攻击者可以跨进程或者container边缘,监听LLM大预言模型给到其他用户的响应。换句话说你在云上与LLM的对话,别人是能看见的。这对企业和个人而言都是不可接受的。(英伟达倒是确认了,他们的设备目前没有受到该漏洞的影响)

除此之外,还有两个原因。其一是AI模型的个性化需求:从今年CES展来看,这个个性化就不光是用Stable Diffusion画小姐姐了,还在于未来AI PC作为“私人助理”这个角色存在时,为PC用户提供更为个人化的定制服务——这是个现在看来还是有点儿前瞻的发展方向。

至少到现在为止,我们认为有能力更快在PC上做到“个人AI模型”的就是英伟达了。比如这次更新的Chat with RTX,不就属于个性化模型的雏形吗?

其二是本地与云AI的结合,用行业的流行词叫“云边协同”。也就是说云和端是各司其职、各展所长的,那么Co-pilot与Llama 2也就没有冲突了;英伟达也能利用好其数据中心的市场与技术优势。

这类云边协同的例子现阶段就有。比如说视频会议时本地做基于AI的背景虚化、眼神注视,而云上Co-pilot还是能够用来总结会议内容;再比如Photoshop现在用Firefly实现图片的选取自动填充(Generative Fill)是基于云的,本地仍然可以做图片AI降噪、消除画面中多余对象之类的处理。

英伟达在这次CES上发布了更有云边协同必要性的“混合AI”应用NVIDIA ACE(Avatar Cloud Engine)。ACE最早是在2022年发布的,去年Computex上英伟达又发布了NVIDIA ACE游戏开发版——这个技术平台能让游戏里的NPC具备与玩家进行生成式AI对话的能力。


所谓的基于“混合AI”,是ACE的实现需要本地AI算力与云上AI算力共同完成。我们在CES现场看到了英伟达演示这项技术。首先玩家与NPC说话——这个过程需要基于语音转文本的自动语音识别模型(英伟达的Riva),推理过程基于PC端的GeForce显卡;

随后文字信息发往云上的推理服务器,由服务器基于LLM大语言模型进行推理,得到NPC的回复内容;第三步同样是在云上,将这些文字回复转为语音;语音信息返回到本地PC,本地PC再基于英伟达的Audio2Face,将声音和NPC的唇形、表情做匹配;最终通过游戏引擎渲染呈现出画面。

实际上,英伟达的演示不止玩家可与游戏NPC进行对话,NPC与NPC之间也能进行基于这套流程的对话,每次的对话内容都还不一样。而且玩家与NPC对话,能让NPC做出一些动作反映:比如现场英伟达就给我们展示了,基于对话内容,让拉面店老板招待饮料、不同口味的拉面,换个符合气氛的灯光等;甚至可以针对桌子上的某个东西问他,这是什么,NPC也能娓娓道来地述说这东西的来由,以及有什么特殊意义。

而且话题是完全自由、没有限定的,想聊什么都可以,NPC也基于自己的人物设定来做出回应。这不就是多年前人们追求的NPC完美智能化吗?也才真正有了NPC是鲜活个体的游戏体验。有没有元宇宙的既视感了?

面向开发者合作伙伴,英伟达这次主要是发布了Ace Production Microservices(ACE产品微服务)。开发者可以使用上述英伟达的Audio2Face和Riva两个模型——将模型融入到游戏中。其他部分构成,英伟达选择了与Convai合作——这是能够让开发者更简单地集成基于生成式AI游戏角色的平台。

Convai把Ace Production Microservices融入到了其框架流程中。在Convai的ACE实现流程里,云上LLM+RAG做出NPC响应的部分,以及文字转语音的部分都可由Convai解决;另外Convai向游戏开发者提供角色API,可给出包括角色背景故事、人格、动作、场景感知、长期记忆之类的构成,最终基于Convai的虚幻引擎插件来输出游戏中的AI NPC。

英伟达现场工作人员告诉我们,虽然目前还没有基于ACE的成品游戏问世,但这项服务已经和包括米哈游、网易游戏、腾讯、育碧、掌趣、Inworld等在内的开发者达成合作,准备将ACE技术用到游戏和应用中。当然他们也特别强调了NPC可以讲不同国家的语言,包括中文——料想这一点应当主要与服务中的模型相关。

这应该是GeForce高级副总裁Jeff Fisher在CES的Special Address上说“生成式AI提供远多于互联网的机会,它将改变我们与游戏的交互方式”这句话的原因。其实仔细想想,元宇宙本身就是游戏的终极形态,而填充元宇宙内容的方法就是以ACE为代表的生成式AI。

 

AI PC,基础 vs 高阶能力

以上只谈到了英伟达在CES上的一部分内容发布。除此之外,相关于GeForce的发布我们还看到了:

(1)iStock的生成式AI发布,基于英伟达Picasso平台——基于GettyImage的图片库,进行有版权保护的文生图,以及图片扩写、图片中的对象替换、画面场景不同层级剥离;

(2)与Twitch, OBS合作,发布Twitch Enhanced Broadcasting,在采用RTX显卡的设备上进行游戏直播,支持5条并发流,且在不同的直播视频流触达的设备上,可以不同的分辨率和帧率显示;且当前Twitch正尝试基于RTX显卡的4K AV1格式流播;

(3)AI加强的RTX Video HDR,可理解为基于AI把SDR视频动态范围扩展到HDR;

(4)GeForce NOW云游戏加入《使命与召唤:现代战争3》《暗黑破坏神IV》《守望先锋2》《星穹铁道》《Pax Dei》等游戏;同时2月开始为玩家开启Day Pass(一日票)这一试玩性质的选择。

不过这些应当暂时和国内的用户关系都不大,就不做详述了,我们也在活动现场表达了对于英伟达与国内同类开发者合作的期望。另外,还有来自OEM厂商的一波采用GeForce RTX 40系显卡的AI PC笔记本上市,包括Dell XPS 14, 三星Galaxy Book4 Ultra, 联想Yoga Pro 9i, ROG幻16等…“AI算力覆盖从130 TOPS到635 TOPS”…看看,现在上个独显笔记本都要强调AI算力了…

最后想谈个简单的话题。很多年前GPU还主要用作图形渲染时,Intel推广自家核显是不排斥英伟达和AMD独显的。当时核显与独显的关系更像是核显提供入门级的图形渲染能力,独显则补充供给图形计算的高阶需求——包括3A游戏和专业视觉应用。

那么为什么到了AI时代,几方似乎就不在一个频道上了呢?我们猜测,一方面当代芯片厂商普遍在推行XPU策略、构建自有生态护城河——AMD, Intel, 苹果, 高通, Arm都是这个思路;

其次是微软作为操作系统供应商,在图形加速卡发展前期是充当了标准制定者的角色的,DirectX成为Windows平台事实上的图形标准;而现在,当GPU用于AI计算时,微软这一角色存在着大量不确定性——具体的原因又可以专门写篇文章了,受限于篇幅不做赘述;

这就导致了至少到目前为止,芯片企业普遍在推自家的API与开发生态——而且似乎不同芯片企业的这一态度还比较坚定;在这个阶段,Intel, AMD与英伟达暂时形成了完全的竞争关系。

未来AI PC生态会向哪个方向走未为可知。不过我们认为,起码现阶段Intel与AMD的AI PC提供的主要还是PC平台的AI与生成式AI基础能力。如前文所述,不仅是这两家提供的端侧AI算力有限,而且在于开发生态发展相对早期。

实际上英伟达现如今的AI PC生态开发也只能说是早期。但由于起点高,英伟达AI PC更有机会成为高阶AI应用的源头。不过这仍取决于将来谁更快抢占了AI PC的生态制高点:在这一局里,英伟达显然是具备了先发优势与AI技术储备的。尤其在AI有革新游戏行业潜力的当下,英伟达大概也更有主场优势,DLSS, RTX Remix, ACE都是个中写照。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
三星电子将从ASML引进首台High-NA EUV光刻机EXE:5000,预计2025年初到货。这意味着三星将正式加入与英特尔和台积电在下一代光刻技术商业化研发方面的竞争。
由于成本和时间问题,路透社报道称,OpenAI公司暂时放弃了雄心勃勃的代工计划,转而计划专注于内部芯片设计工作。作为芯片的最大买家之一,OpenAI 在开发定制芯片时决定从不同的芯片制造商处采购,这可能会对科技行业产生更广泛的影响......
据悉,商汤科技的芯片业务最早在今年5月份就传出了独立的消息。当时,有知情人士表示,商汤科技正在积极引入外部投资者,以推动芯片业务的独立发展。如今,这一计划已经取得了实质性的进展,芯片业务不仅成功引入了外部投资者,还完成了数额庞大的融资。
在全球半导体产业持续波动的背景下,英特尔此举也被视为其加强市场地位、应对外部竞争压力的重要战略。特别是在中国市场,随着数字化转型的加速和数据中心市场的不断扩大,高性能服务器芯片的需求呈现出爆发式增长。
随着AI和HPC芯片需求的不断增加,半导体产业在不断挑战性能极限的同时,也面对着传统封装技术的限制。为了延续摩尔定律,先进封装成为满足这些新兴应用需求的核心策略。
欧盟法院认为,欧盟委员会未能提供足够的证据来证明英特尔向同意从该公司购买大部分芯片的PC制造商提供了非法回扣,亦未构成反垄断法下的违法行为,从而支持了英特尔的立场。
微电子和软件技术的快速发展正在深刻地改变车载娱乐中控和安全系统设计,重新定义驾驶体验。
本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了在FPGA上使用硅知识产权(IP)内核来开发ASIC原型项目时,必须认真考虑的一些问题。
在即将到来的慕尼黑国际电子元器件博览会(electronica 2024)上,英飞凌科技股份公司将展示其创新的解决方案如何推动全球低碳化和数字化进程,充分展现半导体产品如何为实现净零经济铺平道路,并释放人工智能的全部潜力。
vivo旗下品牌iQOO正式发布了年度性能旗舰iQOO 13,除了高通骁龙8芯片、vivo自研的电竞芯片Q2外,最值得一提的是还采用了汇顶科技提供的多项创新技术,包括超声波指纹识别、新一代屏下光线传感器以及智能音频放大器与软件方案。
10月31日消息,据报道,一名在华韩国人A某因涉嫌违反《中华人民共和国反间谍法》被逮捕!我外交部29日证实,确有一名涉嫌从事间谍活动的韩国公民被依法逮捕,并表示已通知韩国驻华大使馆,但并未透露涉事人员
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
01周价格表02周价格观察硅料环节本周硅料价格:单晶复投料主流成交价格为37元/KG,单晶致密料的主流成交价格为35元/KG;N型料报价为41元/KG。交易情况上下游交易延续低迷情绪,拉晶端尚处艰难去
Oct. 31, 2024 产业洞察近年来,产业界对固态电池应用的追求与期盼加速了这项技术的商业化进程。根据TrendForce集邦咨询最新调查,丰田、日产、三星SDI等全球制造商已开始试制全固态电池
动动手指,关注公众号并加星标哦这几天一直在老家,整不了要特别费脑子的事情,比如那个做题。所以只能搞一些不太费脑子的事情,还有零零星星地回答课程号友们的一些问题。这两天,有两位号友分别问了ADS和Gen
10月30日,据多家媒体报道,大运集团旗下高端新能源品牌远航汽车被自家员工曝出人员流失较为严重、延迟发放工资等情况。有自称是远航汽车研发部人士表示,底盘研发部门人员流失速度快,目前仅剩十余名员工坚守岗
10月29日,诺基亚与惠普宣布签署了一项多年专利授权协议,允许惠普公司在其设备中使用诺基亚的视频技术。诺基亚一年前曾表示,已在美国对惠普提起法律诉讼,指控惠普未经授权使用诺基亚专利的视频相关技术,但本
2024年10月标准动态英文标准发布IPC-7095E BGA 设计与组装工艺的实施适用行业:1. PCB Fabricator/Manufacturer2. EMS/Assembly/Contrac
东芝电子元件今日宣布,开始提供适用于3相直流无刷电机的栅极驱动[1]IC——“TB9084FTG”的工程样品。这款器件可用于驱动包括车身系统应用[2]、电动泵以及电机发电机[3]在内的关键车载功能。该
市场传出消息称,国内模拟IC上市公司思瑞浦(3PEAK)近日解散了其MCU团队。预计约80名员工受影响,其中一些员工曾是2022年德州仪器裁撤的中国区MCU研发团队的成员。据称,MCU整个部门调整,包