AI对图形技术的颠覆，拢共分三步-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

黄仁勋、Mark Zuckerberg在前不久的SIGGRAPH上大谈了一番AI技术的价值。似乎SIGGRAPH已经很大程度被AI给占领了，这可是个图形技术顶会，这种趋势从去年就开始了...

今年SIGGRAPH（计算机图形专业组）大会期间，黄仁勋（NVIDIA CEO）与Mark Zuckerberg（Meta CEO）炉边对谈时都提到每个企业和个人，未来都会拥有自己的AI agent（智能体）。Mark将企业和个人的智能体，与邮箱、网站和社交网络做比。他认为AI智能体也会成为如此这般的企业或个人标签。

黄仁勋则以“Jensen AI”黄仁勋本人的AI为例，“在Jensen AI里面注入我写的、我说的所有内容，用我回答问题的方式对它进行精调（fune-tune）。”“随着时间推理、使用过程中的积累，Jensen AI就能成为真正出色的个人助手和伴侣，回答问题、给出点子。”

生成式AI的重要性显然是已经无需赘言的。但要知道，这番对谈的场合是SIGGRAPH。SIGGRAPH以往作为一个专注于图形图像技术的顶会，真正被AI技术大举“入侵”应该是从去年开始的——而且是甫被“渗透”，AI就占据了C位。

黄仁勋在对谈开场说，SIGGRAPH现在是计算机图形图像、AI、机器人、模拟等技术相关的重要会议。今年NVIDIA在SIGGRAPH上发表的20篇paper全部都和生成式AI、模拟相关。从某种程度上来看，虽然SIGGRAPH存在的历史远比NVIDIA公司成立至今的时间更久远，但NVIDIA GPU产品的角色转变，就是SIGGRAPH探讨主题变迁的写照。

不过好在，SIGGRAPH的学术和技术呈现，很大程度还是在于AI与计算机图形学的交叉，尤其是AI for Graphics。借助NVIDIA在今年SIGGRAPH上的产品发布，及黄仁勋参与的两场炉边对谈，我们来谈谈AI和图形世界的交汇，及AI技术正对图形产生怎样深远的影响。

从图形图像设计师、艺术家、开发者实际去用生成式AI工具的角度，我们大致将这些工作分三步概括。

先把生成式AI带到OpenUSD

基于我们参与NVIDIA媒体活动的历史，如果要我们列举AI对于图形技术的帮助或变革，则至少可以给出如下两个大方向：

（1）从内容呈现角度，以DLSS为代表的AI超分、帧生成、光线重建等画面加强技术。此前黄仁勋就说过现在玩游戏，玩家看到的画面，每8个像素可能就只有1个像素是渲染出来的，另外7个都是AI生成的。

于是游戏、专业视觉设计的画面帧数、清晰度都因为AI得到提高。就像最近大热的《黑神话：悟空》，如果没有AI超分和补帧，大部分玩家大概都玩不起视觉质量这么出色的游戏。

（2）从内容创作角度，借助生成式AI，做3D内容生成。现在国内已经有数字艺术家开始用Stable Diffusion做贴图生成；还有一些CG创作者构建了新的工作流，通过文生图（text-to-image），和图生3D（image-to-3D）来辅助生成动画中的某些3D模型——彻底颠覆了以往先做概念图、三视图、建模等传统工作流程。

NVIDIA自己面向游戏modder推出的RTX Remix工具中，某些特性也可以归类到此间：不仅是为老游戏加上光线追踪和DLSS特性；基于老旧的游戏画面，生成式AI能推理出现代化的材质、贴图，并予以替换，重塑高清和增强纹理。

另外，还有个颇具代表性的3D内容生成应用，是去年发布的NVIDIA Picasso——其中就有个text-to-3D文生3D服务（基于Edify 3D模型），即借助文字描述就能生成相当细节化的3D几何体。

值得一提的是，Picasso生成的3D模型，乃至NVIDIA的元宇宙Omniverse，都是基于USD格式表达的。USD相对于3D图形，可类比为HTML相对于web；USD是3D数据表达的某种标准。它最早由Pixar提出，广泛应用于3D动画、CG等领域。

去年8月份，OpenUSD联盟（AOUSD）成立，Pixar、Adobe、苹果、Autodesk、NVIDIA、Linux基金会都是初始成员。OpenUSD的存在，让不同厂商的设计工具能够采用统一的语言来表达图形世界，实现内容间的互通。也很容易想见，作为元宇宙的Omniverse和更多协作设计工具，为什么会选择OpenUSD。

从某种程度来看，OpenUSD也成为了不同生态之间的开放接口。比如NVIDIA年初就宣布和苹果合作，将RTX渲染的画面传输到Vision Pro里面，面向Vision Pro开发者的Omniverse SDK也进入到了抢先体验阶段。此前NVIDIA还与作为开发者的Kantana、PTC和Rockwell自动化等合作，在Vision Pro中也能看到物理级精准、作为工业应用的AR渲染...

也就是说，作为3D图形的表达语言，基于OpenUSD做生成式AI开发，能够解决的问题会变得更多样。今年NVIDIA就特别提到要将OpenUSD应用到两个新的领域：机器人、计算流体力学CFD模拟——后者应当和工业设计工程是相关的。

有关机器人，NVIDIA构建了OpenUSD到URDF（Universal Robotics Data Format）格式的“连接器”，也就是让最广泛使用的机器人模型格式，与OpenUSD相兼容——只不过目前这项工作应该还处在早期；有关CFD模拟，自然是令其以OpenUSD格式来进行渲染。这两项工作对于推进OpenUSD与Omniverse生态，具备了相当的价值。

更重要的是，去年SIGGRAPH上NVIDIA首次提到几个Omniverse Cloud API，包括有ChatUSD、RunUSD、DeepSearch。其中ChatUSD是个对话AI，和它进行自然语言对话，就能按照需求生成USD Python代码，也就是生成3D场景中的对象、在场景中的摆放；而RunUSD用于检查开发者写的USD内容的兼容性、可用性；DeepSearch顾名思义，可用于搜索3D资产数据...

今年SIGGRAPH有了对应的三个重要发布——让它们的能力不再仅作为Omniverse Cloud API存在：新发布的模型以NIM（NVIDIA Inference Microservice）微服务的形式，当前可在NVIDIA API Catalog之上预览。

这三个新的生成式AI工具分别是：USD Code——理解OpenUSD语言，包括几何体、材质、物理和空间等要素的生成式AI模型，也就能够回答有关OpenUSD的问题，生成OpenUSD Python代码；

USD Search，使用自然语言或者图像输入，就能在大型3D和图像数据库中进行搜索；USD Validate，基于OpenUSD标准和发行版本，检查文件的兼容性，并生成RTX渲染的路径追踪图像（通过Omniverse Cloud API）。

然后装进NIM容器里

而这三个模型和能力，也都以NIM微服务的形式面向开发者提供。有关什么是NIM的问题，此前我们也数度撰文解释过。NIM内部本身有一大堆东西，除了AI模型之外，还有各种运行所需的依赖包、软件栈，及相关优化，面向开发者提供标准API接口。

简单用一句话总结：NIM是面向开发者简单部署生成式AI的全面解决方案，“是个简单的，面向现有产品平台嵌入即用的，达成差异化生成式AI特性、并具备出色竞争力优势的微服务”；不需要企业和开发者去费心巴力地处理相关AI乱七八糟的工作，显著降低部署AI的难度；用英伟达的话来说是做到AI的开箱即用。

所以对于企业或行业而言，NIM的价值简而言之是让生成式AI技术快速、真正投入到生产中。

而且NVIDIA在宣传中也在反复强调NIM的性能。所以Hugging Face面向开发者提供基于NVIDIA NIM的Inference-as-a-Service，跑在DGX Cloud上时，据说其吞吐相比于没有采用NIM的服务快了最多5倍（今年中Computex上提供的初步部署数据还是3倍）。

目前NVIDIA已经发布的NIM微服务应当已经超过了100个，里面包括来自谷歌、Meta、微软、Mistral等的模型，跨不同领域及不同模态。本次新发布的NIM，即纳入NIM麾下的新模型包括Llama 3.1、NeMo Retriever、Mistral Nemo 12B等。像Llama 3.1这样的模型是刚发布的次日，NVIDIA就提供了对应的NIM。

媒体会问答环节，Kari Briski（NVIDIA生成式AI软件产品管理副总裁）表示NVIDIA关注社区当前流行的模型，及这些模型的授权方式和训练数据；同时基于NVIDIA自身关注的垂直领域和业务单元，以及客户需要，来考虑NIM的发布。

“Hugging Face上有75万模型，开发者很难搞清楚哪些质量高，哪些可以用于业务生产，哪些需要商业授权。”Kari谈到，“而如果是NIM，开发者可以相信这是充分审查、优化过的。”

前文提到USD Code, USD Search, USD Validate，作为推进AI for Graphics的3D开发模型，也自然成为本次发布的一众NIM微服务的组成部分。

同时NVIDIA也预告了很快会到来的，相关于OpenUSD和3D开发的新的NIM，包括有：

USD Layout——基于文字输入，来组合多个OpenUSD场景；
USD SmartMaterial——针对3D对象，智能预测和应用真实材质；
fVDB Mesh Generation——由点云数据，生成基于OpenUSD的网格（mesh），藉由Omniverse API渲染；
fVDB Physics Super-Res——针对单个或一系列帧，执行AI超分，生成基于OpenUSD的高分辨率物理模拟；
fVDB NeRF-XL——用Omniverse API生成大规模NeRF...

本届SIGGRAPH上，和图形图像相关的NIM发布，还包括用于文生图的Edify NIM获得升级。Getty Images基于此对其API服务做出了更新，不仅有更高的分辨率、更好的画质，而且更贴合提示词要求，亦可在提示词中做相关摄影的焦距、景深等参数控制；

Edify 3D NIM也正式走向商用，也就是前文提到text-to-3D模型的NIM微服务。基于Edify 3D NIM的Shutterstock生成式3D服务进入商用——今年3月GTC上，Shutterstock才刚刚发布了该服务的抢先体验。

除了生成3D内容以外，Shutterstock的服务现在也提供针对3D场景，生成光照和360°背景的能力——主要是基于Edify 360 HDRi模型。这项特性目前开始提供抢先体验。

基于这些新的模型、NIM或商用服务的发布，有没有感觉在AI for Graphics众多技术的加持下，未来可能真的不需要多少3D图形专业知识，普通人也能快速进行3D设计？这和AI在非图形领域的应用也是类似的，好像人人都能画图、人人都能编程、人人都能写曲子那样。

“除了生成式AI以外，我不记得还有哪项技术能以这么快的速度影响个人、企业、行业，乃至科学的不同领域：气候、生物、物理科学......在我们面对的任何领域，生成式AI都是根本性变革的核心。”这是黄仁勋在与Mark Zuckerberg炉边对谈时说的。而AI for Graphics显然是其中的一环。

接下来，要让AI变得更可控

将生成式AI真正应用于内容创作或潜在的各行各业，固然能够让工作变得更为省时省力。但AI的一大问题在于结果的不可控。比如说用Stable Diffusion做个文生图，出图结果未必是艺术家预期的。

此前我们采访的数字艺术家普遍将这个过程称作“抽卡”——能不能抽到想要的，得听天由命；高算力GPU的快速出图，固然能够大幅降低抽卡成本，结果不可控的问题仍然是存在的。

SIGGRAPH期间，黄仁勋在与《连线》杂志资深撰稿人Lauren Goode的炉边对谈中举了个例子，用Edify.Image模型，生成一张图片：文本提示是，午后光照下的一张木头桌子上，有一瓶可口可乐，旁边还有炸鸡。从PPT来看，出图效果固然相当不错，但其中细节是不可控的，比如具体多少炸鸡，可乐怎么摆、何种视角等。

为了解决可控性问题，NVIDIA提出的方案是首先借助于本文、图片、视频等多模态信息的数据，在Omniverse Cloud里面生成3D场景（包括可以用Edify.3D做text-to-3D操作）。黄仁勋在此对Omniverse的注解是“一个能够将不同模态数据，进行组合，形成内容产出的地方”。

在Omniverse设计环境中，就可以对各种资产做聚合、增减和更改。设计师和艺术家们因此有了完全的主动权——更重要的是相较单纯的text-to-image流程，这套方案是能够进行团队协作的。

然后对此场景进行2D渲染，并作为Edify.Image或者其他生图大模型的输入，也可以搭配其他文本提示词，最终生成完全贴合需求且更为精美的照片。在这样的图片中，包括可乐与炸鸡的位置关系、景别等在内的特定需求和因素都做到真正的满足与可控。

目前WPP已经开始采用这套工作流，而且给可口可乐公司做全球广告方案就是他们最早的用例。所以设计行业最早接受生成式AI的洗礼是有道理的——发展到现在，这个行业已经在做AI相关不同工作流的重整和探索了。

黄仁勋形容这个流程有些类似于RAG（retrieval augmented generation），一般我们说RAG是让生成式AI更可控的常规方案，只不过此例更准确地说是“3D augmented generation”。

按照这个思路往下走，不单是图形图像领域，当生成式AI进入到生产或工作流程中，则添加中间节点，做“增强生成”，会是未来AI最终产出结果实现可控、减少模型不确定性的关键解。

最后做个总结：首先全面推广OpenUSD标准与生态，将这种格式、标准用在设计领域、用在数字孪生和元宇宙里头——“OpenUSD是第一个，从不同的工具、将多模态数据聚合到一起、令不同工具和生态间可做交互、而且作为虚拟世界出入口的格式”——这是黄仁勋对于OpenUSD的总结。

OpenUSD扩展到机器人与工业控制领域，就是这番话的写照。然后面向OpenUSD，去做生成式AI模型与技术，令这些AI模型可以为图形图像及潜在更多领域做贡献：包括理解、验证USD格式，可做3D资产搜索，及各类直接生成3D内容的AI。

再把这些AI以NIM微服务的形式，提供给开发者和企业客户，降低AI开发门槛的同时，加速生成式AI全面投入商用和生产。最后，基于已构建的AI模型和NIM微服务，力求通过工作流的创新，打造更为可控、可协作的AI。

NVIDIA的这套逻辑还是相当清晰和脚踏实地的。我们过去半年也和不少数字艺术家、图形图像设计工作者，以及工具链上游的模型开发者交流过。短短半年内，AI对该领域的变革是深刻而迅速的。

当很多人在质疑生成式AI能不能用来生产时，不单是SIGGRAPH这种顶会将其作为首要议题探讨，很多行业参与者已经用它来赚钱、产生行业价值了。

责编：Illumi

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

人工智能

AI对图形技术的颠覆，拢共分三步

先把生成式AI带到OpenUSD

然后装进NIM容器里

接下来，要让AI变得更可控

杂志声明