3D AI大模型兴起，Meta发布 3DGen AI在1分钟内生成-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

Meta的GenAI团队开展新研究，公布了一款Meta 3D Gen模型。据悉，该模型可在 1 分钟内之内从文本端到端生成 3D 资产的新AI组合系统，同时具有高分辨率纹理和材质图。GenAI团队称，其结果优于现有解决方案，速度是该领域现有工作的 3-10 倍。

电子工程专辑讯近日Meta的GenAI团队开展新研究，公布了一款Meta 3D Gen模型。据悉，该模型可在 1 分钟内之内从文本端到端生成 3D 资产的新AI组合系统，同时具有高分辨率纹理和材质图。GenAI团队称，其结果优于现有解决方案，速度是该领域现有工作的 3-10 倍。

AI技术在3D内容生成领域逐步创新并突破。

在数字艺术、游戏设计、影视制作等领域，3D动画一直扮演着重要角色。传统3D动画制作过程繁琐复杂，需要专业技能和大量时间，GenAI+3D技术的出现，有望改变这一现状。

Meta 3DGenAI大模型的三维内容如何生成？

Meta 3DGen 集成了其关键技术组件 Meta 3D AssetGen 和 Meta 3D TextureGen。

通过结合这两种技术的优势，3DGen 可同时以三种方式表示三维物体：视图空间、体积空间和 UV（或纹理）空间。在Meta的一则报告中提到，与单阶段模型相比，这两项技术的集成实现了 68% 的胜率。我们将 3DGen 与众多行业基准进行了比较，结果表明，就复杂文本提示而言，3DGen 在提示保真度和视觉质量方面都优于行业基准，而且速度明显更快。

3D Gen的生成主要分为两个步骤。

第一阶段：可以根据用户提供的文本提示，使用Meta 3D AssetGen模型（简称 AssetGen）创建初始三维资产。这一步将生成带有纹理和 PBR 材质贴图的 3D 网格。推理时间约为 30 秒。

所为的PBR，就是基于物理的渲染，是计算机图学中的着色方法，目的在于模拟光线的物理行为及其与材质的交互作用，从而实现逼真的视觉效果。

第二阶段：可使用文本到纹理生成器 Meta 3D TextureGen（简称 TextureGen），可以生成更高质量的纹理和 PBR 贴图。此外，也可以重新生成三维（再）纹理，就是给定一个没有纹理的三维网格和一个描述其理想外观的提示，从头开始为该3D资产生成纹理（网格可以是以前生成的，也可以是艺术家创建的）。推理时间约为 20 秒。

GenAI团队称，该技术不仅在设计、视频游戏开发、增强和虚拟现实应用以及电影业特效等，也可以作为 3D 艺术家的人工智能助手，实现以创建个性化、用户生成的 3D 内容为中心的新体验。人工智能驱动的三维生成对于在 Metaverse 中构建无限大的虚拟世界也非常重要。

GenAI+3D是一种基于深度学习的人工智能技术，它利用神经网络对大量数据进行训练，从而学会从单张图像中提取出三维信息。简单来说，其工作原理可分为三个步骤：

其一是数据收集与处理。GenAI+3D首先需要收集大量的三维数据，包括各种形状、纹理、光照等信息。这些数据经过预处理后，被用于训练神经网络。

其二是神经网络训练。在训练阶段，神经网络通过不断学习和调整参数，逐渐学会从单张图像中提取三维信息。这个过程需要大量的计算资源和时间，但一旦训练完成，神经网络便能具备强大的泛化能力，适应各种不同的图像输入。

其三是，三维重建与动画生成。当用户提供一张参考图像时，训练好的神经网络能够迅速提取出图像中的三维信息，生成相应的3D模型。然后，通过一系列算法和技术，将这些3D模型转化为流畅的3D动画。

通过AI制作的3D内容在艺术质量、生成速度、三维网格的结构和拓扑质量、UV 贴图的结构以及纹理的清晰度和分辨率等方面都有严格的标准。当前的三维数据学习内容不及图片和视频的多，因此，三维生成还必须从非三维图像和视频中学习，而三维信息必须从局部的二维观察中推断出来。

在报告中GenAI团队称，经专业 3D 艺术家评估，Meta 3D Gen 显著提高了生产质量 3D 资产的关键指标，尤其是复杂的文字提示。无论是否商业化，该技术生成的三维形状和纹理的质量更好，至少与这些竞争对手不相上下，而且使用的是可扩展系统，速度更快，忠实度更高。对象生成后，可在 20 秒内对其纹理进行进一步编辑和定制，与其他方法相比，质量更高，成本更低。

Meta通过AI技术实现了虚拟现实设备的普及化，并且3D Gen AI模型的发布有望进一步推动了元宇宙的发展。3D Gen大大简化了3D设计的过程。

不过目前该模型的具体发布时间尚未确定。

3D AI大模型，群雄四起

目前，市场上也出现了不少关于AI生成3D模型的应用和工具，比如Meshy是一款基于AI技术的在线3D内容生成工具，能够根据图像和文本生成3D模型；还有Deep Art Effects、Pix2PixHD、Meshroom和GANPaint Studio等也在市场上受到关注。

专长于视觉内容生成的 Stability AI 携手VAST团队推出的TripoSR模型，据悉能够在 0.5s 的时间内由单张图片生成高质量的 3D 模型，甚至无需 GPU 即可运行。

腾讯的 AI新模型“InstantMesh”可以使用静态照片渲染 3D 对象，并且开源供开发者使用。

OpenAI公司推出了新模型Shap-E，可以通过文字提示和图片提示生成多样化的3D模型。

英伟达与设计工具Shutterstock合作训练“文本生成3D”模型，大幅缩短从创建到发布具有精美纹理、结构化的3D模型的周期。

谷歌推出的DreamFusion项目，同样受到关注。

国盛证券在研报中指出，作为生产力工具，AIGC能够对3D生成内容起到降本增效的重要作用，这将加速推动产业变革，并带给用户更加逼真的视觉体验，包括影视、游戏、建筑、营销等多个场景都将受益，加速元宇宙时代的到来。

AI概念的热潮正涌向影视行业。随着AI的使用场景越来越广泛，自动生成3D类大模型的出现或将再次激发影视行业发展的活力。《复仇者联盟》导演乔·罗素的预测，影视行业在两年后有望出现一部完全由AI制作的电影。

复旦大学和上海AI lab的研究人员推出了3DGen-Arena。这是一个针对3D生成模型的人工评测竞技场，旨在让大众进行公开、匿名的评测。该平台不仅支持匿名投票和比较，还提供交互功能，通过多维度的用户评测来优化3D模型生成质量，推动技术和算法的进一步发展。此外，3DGen-Arena分为文生3D和图生3D两个赛道，提供360°环绕视频展示，并允许用户根据几何合理性、精细度、纹理质量、一致性等维度进行投票。目前平台上已有19个开源3D生成模型，参与者可以通过匿名投票或与指定模型进行比较来进行评测。

3D AI大模型面临的挑战主要包括数据质量和多样性、高成本和长周期、精度与效率的矛盾以及巨大的算力需求。其中，精度与效率的矛盾是3D建模中的一个痛点。在3D建模中，精度越高，模型的质量就越好，但同时建模的效率就会降低。这些挑战需要通过技术创新和数据积累来逐步克服。

责编：Amy.wu

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

业界新闻人工智能

3D AI大模型兴起，Meta发布 3DGen AI在1分钟内生成

Meta 3DGenAI大模型的三维内容如何生成？

3D AI大模型，群雄四起

杂志声明