最近在很多社区看到,越来越多的创作者开始用AI工具image-to-3D搞3D建模——和过去的工作流程大相径庭。AI PC似乎真的在革老一辈开发者和创作者的命...

可能大部分人对于AI PC于设计行业的印象,还停留在借助Stable Diffusion文生图的层面。而且几个月前,我们也的确看到,已经有数字艺术家借助RTX AI PC及各种AI工具来做严肃的商业设计,直接转化成生产力和钱的。

但在最近的GeForce RTX 40系列媒体品鉴会上,我们看到B站up主特效小哥008已经开始用生成式AI做3D建模了——一套丝滑工作流涵盖文生图(text-to-image)、图生3D模型(image-to-3D),而且真正用到了商业CG成品中。

结合前不久Computex上,NVIDIA发布RTX AI Toolkit,还有诸如面向RTX AI PC的ACE 、NIM等工具,NVIDIA眼中的AI PC能用来赚钱,或者说正儿八经用于生产力的属性显得愈发明朗。AI PC就不再是“有什么用”的问题,而应该是“能发挥多大作用”的问题。

 

从云走向端,用AI PC做3D设计

去年3月份的GTC开发者大会上,NVIDIA曾发布过一个名为“NVIDIA AI Foundations”的云服务。这个云服务有三个板块:Nemo、Picasso和BioNemo。

Nemo和BioNemo就不多谈了,这俩分别是定制LLM和用在药物发现方面的服务——跑在DGX Cloud上,企业客户借助这些服务,可以基于预训练模型,来做属于自己的定制模型。

而当时Picasso的演示是惊艳了不少人的——这是个文生图、文生视频、文生3D服务,也就是文字能转各种多媒体。首先当然还是借助服务做个定制模型。随后开发者可以在应用中调用Picasso,基于文字输入和元数据,就能生成图片、视频或者3D模型了。

NVIDIA演示的文生3D模型Demo,得到的3D几何体还相当细节化。生成的3D模型可以是基于USD格式的(NVIDIA现在在努力推动,应用在Omniverse生态内的一种开放3D格式)。也就是说通过Picasso服务,简单输入几行文字,得到3D模型——这个模型就能放进Omniverse中,不管是用于数字孪生(digital twin)还是3D协同设计。

往大了说,这叫为元宇宙填充内容。其时宣布的合作伙伴包括gettyimages, shutterstock, Adobe等。所以黄仁勋说生成式AI时代,人人都是艺术家。

这东西的初始形态之所以是云服务、跑在DGX Cloud上面,可能不单是基于前期扩大生成式AI应用的考量,还在于PC本地的AI算力或AI算法尚未全面准备就绪。

单看其中的文生3D模型部分,有没有感觉这次品鉴会上特效小哥008展示的图生3D模型,多少已经是相似应用,从云走向端呢?GeForce RTX 40系GPU的AI算力在200-1300 AI TOPS区间内,远高于PC领域任意集成在AP SoC内部的AI加速器。随这个系列GPU的逐渐普及,这种需求3D模型的生产力创作就成为可能。

特效小哥008在介绍他的工作流时说全流程依托于ComfyUI(Stable Diffusion的一个模块化GUI和后端)。去年7月的品鉴会上,他就已经向我们展示过借助生成式AI工具辅助完成的特效短片《Flower》。不过当时生成式AI主要是用于生成CG远处的背景图,和3D模型上的部分纹理。

这次除了AI生成场景氛围图,特效小哥008着重展示的就是图生3D模型。其流程大致上是这样的:比如要在3D图形场景中加入一把剑,则可以首先通过简笔画的方式,画个剑的形状——搭配文字部分的提示词描述,就能生成一张更为精细的剑的2D图片。

随后就是基于图片生成3D模型。“生成的结果不理想也没关系,我们可以接着‘抽卡’。”也就是多试几次,让AI给出更多结果,“效果满意之后就可以导入到场景里面了。”“场景中的远景,和一些并不是很重要、但又追求细节的东西,通过这种方式就能做出来。”

“想做近景也可以,但一般是作为参考,后续再由我们去做修改——这个过程还是比直接从零开始建模要快。”特效小哥008说,“以前要做概念图、三视图、建模,现在就方便多了。”如此一来,”整个画面,由AI生成参考图;根据参考图再用AI去做每个组成部分;最后我们做简单处理。”

“有些小伙伴有建模能力,但美术能力不怎么样。这种方式也就大幅提升了创作效率。”“而且现在‘抽卡’成本也不高,直接把需求丢进去看看结果是否符合预期,然后再去做调整。”这里的“抽卡”成本不高,实际上也是基于本地AI推理速度足够快(演示基于GeForce RTX 4090D)。

特效小哥008还提到,他平常出差还是更常用笔记本借助AI生图工具去提作品修改的直观建议

其一是GeForce RTX 40系GPU作为RTX AI PC的硬件基础;其二在于面向ComfyUI Stable Diffusion的TensorRT节点加速,应该也是从大半年前就开始的。虽然这次没有从具体数值上展示加速效果,不过现场演示的从简笔画到最终出3D模型速度,还是相当快的。

从演示来看,这套工作流的关键定制节点可能至少包括了PainterNode、TripoSR(似乎还有BRIA RMBG?)。尤其这里的TripoSR是个基于图像做3D重构的开源生成式AI模型——此前Stability AI发布TripoSR时还强调过这个模型性能远超同类模型,官方数据是A100在大约0.5秒内可生成草稿质量的3D输出。

现在Youtube和Reddit等社区有关利用ComfyUI构建图生3D模型工作流的教程还挺多。这个行业看起来的确是最先被AI技术推着走了。而显卡算力提升、中间件加速,和模型优化,都是端侧这番演示能够呈现在我们面前不可或缺的组成部分。

RTX AI PC好像也的确是现阶段,唯一能达成上述效果的解决方案——这端侧AI生产力还真妥妥地继续被NVIDIA拿捏了。


从ACE PC NIM谈起,RTX AI PC的开发生态

GeForce RTX 40系列媒体品鉴会展示了近一年的演示重点少不了NVIDIA ACE(Avator Cloud Engine)。这项技术反映在游戏中,就是游戏NPC能像ChatGPT那样,和玩家进行各种对话——一边体现交互的灵活性,一边还和游戏剧情密切相关。

这次活动上,NVIDIA又对ACE的游戏Demo做了强化:场景中出现了一个新的NPC人物。这个人物和Demo主线剧情关系并不算太大;但他能宣传NVIDIA和各家OEM、板卡厂商的产品和技术。

NVIDIA ACE演示新增的游戏NPC

当时据说NVIDIA和InWorld为包括七彩虹、华硕、技嘉等各厂商,在他们的展位上定制了不同版本的Demo。与图中展示的这个NPC人物对话,该NPC就能专门针对特定厂商的产品做宣传。比如让他介绍NVIDIA的DLSS 3技术,追问各种技术细节都不在话下。这名新NPC的加入,无疑是为了更明确地展示对开发者而言,角色NPC的可定制性。

Computex 2024上,NVIDIA特别发布了NVIDIA ACE PC NIM微服务。有关什么是NIM(NVIDIA Inference Microservice),此前我们也不止一次撰文探讨过。这是个面向企业客户或开发者的“AI in a box”——盒子里面包含各种模型、软件、工具、环境。

企业或者开发者用里面的工具,基于自家数据就能fine-tune这些模型,然后将这一堆东西部署到想部署的地方,包括AI PC。我们此前评价NIM,是大幅降低企业和开发者使用生成式AI难度的打包服务;对英伟达而言则是接下来要快速扩张生成式AI的产品。

换句话说AI开发者不再需要把太多注意力放在怎么搞AI、怎么搭环境之类的复杂问题上,而可以将注意力放在业务逻辑上。Computex上发布的NIM,其实不只有ACE或游戏。具体到ACE和游戏领域,自然就是便于游戏开发者去用生成式AI技术,能够把更多资源真正放在游戏内容、而不是AI技术开发上。

NVIDIA ACE本质上为开发者准备的是一种数字人技术——游戏NPC就是一种典型的数字人。这次新加的这名NPC角色,显然已经有行业零售应用那味儿了(推销嘛)。无论对行业客户,还是对游戏开发者,ACE都可以通过NIM融合到其现有应用的框架、引擎中。

另有一点值得一提。对ACE比较熟悉的读者应该很清楚,这是个端云结合的生成式AI应用:云上主要做LLM推理,PC端侧负责语音转文字、唇形同步等推理步骤。

有关端云协同问题,这次比较有趣的一则探讨是,我们此前普遍认为,LLM/SLM放在本地推理问题也不大——什么7b、13b规模的模型,借助GeForce RTX显卡跑起来,效果都不错;延迟也远低于数据去云上转一圈。

NVIDIA现场的工作人员说,游戏场景内显卡本身的大量算力需要用于图形渲染,还要考虑光追等算力密集型应用,DLSS则需要占用Tensor Core资源;如果同时还要做本地LLM推理,从带宽、功耗等角度可能都有商榷余地。所以端云协同是个很优的解决方案。

或许NVIDIA在最初构思ACE的技术框架时,就尝试过这套方案完全跑在本地的可行性。不过工作人员还说:“对于游戏来说,如果游戏开发者对NPC交互的要求并没有那么高,仅专注于游戏内容本身,其实数据量要求并不太大。比如我们可以通过SLM(小语言模型)来实现,那就有本地跑生成式AI的潜力。所以最终要看游戏开发商如何去平衡这个问题。”

最后,虽然本次品鉴会上并没有对应的展示,但Computex 2024上英伟达还面向AI PC做了两个比较重要的发布。其一是NVIDIA RTX AI Toolkit工具,帮助Windows应用和游戏开发者,去定制、优化和部署AI能力,并且能够在PC端侧和云之间去做推理的AI编排工作。

全流程这样的:基于预训练模型可以采用QLoRa工具来做模型定制;然后用TensorRT模型优化器做优化;再借助TensorRT Cloud做模型部署;在应用侧,开发者借助AIM(AI Inference Manager),外加前文提到的NIM,最终让模型推理在云或RTX AI PC之间进行。 

据说走这套流程,可以实现模型的大幅优化:比如如果用Llama 3适配游戏角色NPC对话,则首先这套流程能做游戏角色的模型定制;其次是原本GeForce RTX 4090D才能跑得起来,经过RTX AI Toolkit,用RTX 4050 Laptop就能跑。

当时NVIDIA给的数据是,优化前LLM需要17GB VRAM,推理性能48 tokens/s;用这套工具对模型做优化之后,显存需求降低到5GB,推理性能187 tokens/s。

还有G-Assist项目,此处也简略谈一谈:游戏接入这项特性,就能给玩家提供AI助手。玩家可以和该AI助手进行语音或文字交互。这个技术主要考虑的是当游戏玩法或系统较复杂、多样时,玩家可以快速获得相关游戏内容、游戏过程中的系统性能,乃至基于自己的PC配置怎么进行游戏设置才能达到最佳体验等信息...

这些都算得上是RTX AI PC生态构建的组成部分,尤其将注意力放在了NVIDIA现如今最擅长的生产力和游戏方面。

 

人人都是艺术家、人人都是程序员

以上两个Demo,是我们认为极具代表性的、现如今AI PC可以达成设计和开发的高水平应用——即便可能ACE和RTX AI Toolkit的使用和开发,本身未必是基于AI PC;但它们最终的产品形态都是要落地到AI PC(或其他边缘设备)的。

除此之外,本次GeForce RTX 40系品鉴会还有一些我们早就见过的Demo。比如说ChatRTX——可以一键安装的本地检索增强生成工具,现在也支持中文大语言模型ChatGLM 3-6B,配合RAG指向本地文件夹,可基于用户的本地资料进行对话;也支持CLIP,也就能够通过文字描述,精准找到图库中对应的图片...

用CLIP模型,基于输入的文字描述直接找到对应的图片

再比如已经进入beta测试阶段的NVIDIA App,用于替代以前的GeForce Experience和NVIDIA Control Panel。NVIDIA App本身加入了一些AI特性,比如两个基于AI的游戏滤镜RTX动态亮丽和RTX HDR。

还有RTX Video,在浏览器中看流播视频,就能进行本地的AI超分、SDR→HDR;乃至“万兴喵影”基于该SDK,已经支持将SDR视频转为HDR色彩空间的视频并导出...

其实这场品鉴会的重头戏还在于《三角洲行动》,《鸣潮》,《解限机》和《漫威争锋》这些即将支持DLSS 3的游戏Demo展示。游戏体验部分虽然不是我们关注的重点,不过看到《解限机》这类游戏呈现的机甲画面,我们也在慨叹现在的游戏建模、纹理和光影的精细程度,即便是即时演算呈现出来的效果,也远超早年的CG过场动画了。

《解限机》游戏Demo画面

要知道当年那些仅几分钟的CG动画,可是专业卡渲染几天才能最终出片的;而现在却能够在消费级显卡上以实时光线追踪+DLSS的方式,进行上百帧的游戏交互。一方面是体现出图形技术的发展,另一方面则是DLSS这样的AI技术着实为高画质+高帧率呈现立功不小——这些还真的不是光靠传统半导体技术和摩尔定律推动可发展至此的。

不知道现在有没有游戏工作室,大范围应用文生3D或图生3D模型的工作流,毕竟游戏交互和单纯的CG或广告片制作还是不同。不过像RTX Remix这样的Mod制作工具,借助AI来重塑高清和增强纹理大概已经提供了这种可能性。

而在RTX AI PC的加持下,生成式AI时代大概真的就是“人人都是艺术家”“人人都是程序员”的时代。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
此次仲裁的核心争议在于,杨植麟和张宇韬在未取得循环智能投资方的同意豁免书之前,便启动了融资并创立了月之暗面。2024年3月,月之暗面旗下AI应用产品Kimi大火,甚至出现二级市场Kimi概念股。
有人评论:AlphaFold-3解决了长距离依赖问题,还能预测RNA等分子结构,甚至细胞内部生化过程,这简直就是生物信息学领域的一场革命。
英国以向俄罗斯军事工业提供支持为由,宣布对多国实体及个人实施制裁,其中包括10家来自中国大陆和香港的企业。
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
台积电7nm停供中国大陆!集微网报道称,从多个消息源获悉,台积电已经向目前所有中国大陆AI芯片客户发送正式电子邮件,宣布自下周(11月11日)起,将暂停向中国大陆AI/GPU客户供应所有7纳米(nm)
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据路透社看到的草案,日本政府计划提出一个耗资 10 万亿日元的计划,在“数年”时间
互联网与科技企业每日重点资讯文 | 苏丁巨头动向歌尔股份被曝成为苹果2026年两款新品供应商天风国际分析师郭明錤爆料称,苹果将首次进军智能家居IP Camera(网络摄像头)市场,计划2026年量产,
英国豪华跑车制造商路特斯宣布,由于市场需求变化和市场环境演变,公司将在英国裁员 200 人。上周,路特斯向员工确认了裁员消息,表示公司将尝试重新安置部分员工,并计划探索如何“在企业内部保留特定技能和知
东芝电子今日宣布,最新开发出一款用于车载牵引逆变器[1]的裸片[2]1200 V碳化硅(SiC)MOSFET“X5M007E120”,其创新的结构可实现低导通电阻和高可靠性。X5M007E120现已开
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓世界先进11月11日公告,位于桃园的晶圆三厂于下午12:10分因供电系统设备异常,致使厂区电力中断,
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据报道,面对AMD和NVIDIA的激烈竞争,英特尔计划在2025年通过扩大与台积电
中国新能源车市场的变化速度用“日新月异”来形容毫不夸张,短短几年时间,车企们的发力方向就从“冰箱彩电大沙发”的卷配置,到猛堆电池的卷续航,再到蜂拥而上卷智能化。各种方向的技能树都没少点,但由于补能效率
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据台媒报道,继台积电宣布对中国大陆AI芯片企业暂停7nm及以下先进制程代工服务后,
11月11日,据路透社消息,华为技术有限公司要求美国法官驳回一项针对其的联邦起诉书的大部分内容。该起诉书指控华为试图窃取美国竞争对手的技术机密,并就其相关业务误导银行。           报道称,华