电子工程专辑讯 近日Meta的GenAI团队开展新研究,公布了一款Meta 3D Gen模型。据悉,该模型可在 1 分钟内之内从文本端到端生成 3D 资产的新AI组合系统,同时具有高分辨率纹理和材质图。GenAI团队称,其结果优于现有解决方案,速度是该领域现有工作的 3-10 倍。
AI技术在3D内容生成领域逐步创新并突破。
在数字艺术、游戏设计、影视制作等领域,3D动画一直扮演着重要角色。传统3D动画制作过程繁琐复杂,需要专业技能和大量时间,GenAI+3D技术的出现,有望改变这一现状。
Meta 3DGenAI大模型的三维内容如何生成?
Meta 3DGen 集成了其关键技术组件 Meta 3D AssetGen 和 Meta 3D TextureGen。
通过结合这两种技术的优势,3DGen 可同时以三种方式表示三维物体:视图空间、体积空间和 UV(或纹理)空间。在Meta的一则报告中提到,与单阶段模型相比,这两项技术的集成实现了 68% 的胜率。我们将 3DGen 与众多行业基准进行了比较,结果表明,就复杂文本提示而言,3DGen 在提示保真度和视觉质量方面都优于行业基准,而且速度明显更快。
3D Gen的生成主要分为两个步骤。
第一阶段:可以根据用户提供的文本提示,使用Meta 3D AssetGen模型(简称 AssetGen)创建初始三维资产。这一步将生成带有纹理和 PBR 材质贴图的 3D 网格。推理时间约为 30 秒。
所为的PBR,就是基于物理的渲染,是计算机图学中的着色方法,目的在于模拟光线的物理行为及其与材质的交互作用,从而实现逼真的视觉效果。
第二阶段:可使用文本到纹理生成器 Meta 3D TextureGen(简称 TextureGen),可以生成更高质量的纹理和 PBR 贴图。此外,也可以重新生成三维(再)纹理,就是给定一个没有纹理的三维网格和一个描述其理想外观的提示,从头开始为该3D资产生成纹理(网格可以是以前生成的,也可以是艺术家创建的)。推理时间约为 20 秒。
GenAI团队称,该技术不仅在设计、视频游戏开发、增强和虚拟现实应用以及电影业特效等,也可以作为 3D 艺术家的人工智能助手,实现以创建个性化、用户生成的 3D 内容为中心的新体验。人工智能驱动的三维生成对于在 Metaverse 中构建无限大的虚拟世界也非常重要。
GenAI+3D是一种基于深度学习的人工智能技术,它利用神经网络对大量数据进行训练,从而学会从单张图像中提取出三维信息。简单来说,其工作原理可分为三个步骤:
其一是数据收集与处理。GenAI+3D首先需要收集大量的三维数据,包括各种形状、纹理、光照等信息。这些数据经过预处理后,被用于训练神经网络。
其二是神经网络训练。在训练阶段,神经网络通过不断学习和调整参数,逐渐学会从单张图像中提取三维信息。这个过程需要大量的计算资源和时间,但一旦训练完成,神经网络便能具备强大的泛化能力,适应各种不同的图像输入。
其三是,三维重建与动画生成。当用户提供一张参考图像时,训练好的神经网络能够迅速提取出图像中的三维信息,生成相应的3D模型。然后,通过一系列算法和技术,将这些3D模型转化为流畅的3D动画。
通过AI制作的3D内容在艺术质量、生成速度、三维网格的结构和拓扑质量、UV 贴图的结构以及纹理的清晰度和分辨率等方面都有严格的标准。当前的三维数据学习内容不及图片和视频的多,因此,三维生成还必须从非三维图像和视频中学习,而三维信息必须从局部的二维观察中推断出来。
在报告中GenAI团队称,经专业 3D 艺术家评估,Meta 3D Gen 显著提高了生产质量 3D 资产的关键指标,尤其是复杂的文字提示。无论是否商业化,该技术生成的三维形状和纹理的质量更好,至少与这些竞争对手不相上下,而且使用的是可扩展系统,速度更快,忠实度更高。对象生成后,可在 20 秒内对其纹理进行进一步编辑和定制,与其他方法相比,质量更高,成本更低。
Meta通过AI技术实现了虚拟现实设备的普及化,并且3D Gen AI模型的发布有望进一步推动了元宇宙的发展。3D Gen大大简化了3D设计的过程。
不过目前该模型的具体发布时间尚未确定。
3D AI大模型,群雄四起
目前,市场上也出现了不少关于AI生成3D模型的应用和工具,比如Meshy是一款基于AI技术的在线3D内容生成工具,能够根据图像和文本生成3D模型;还有Deep Art Effects、Pix2PixHD、Meshroom和GANPaint Studio等也在市场上受到关注。
专长于视觉内容生成的 Stability AI 携手VAST团队推出的TripoSR模型,据悉能够在 0.5s 的时间内由单张图片生成高质量的 3D 模型,甚至无需 GPU 即可运行。
腾讯的 AI新 模型“InstantMesh”可以使用静态照片渲染 3D 对象,并且开源供开发者使用。
OpenAI公司推出了新模型Shap-E,可以通过文字提示和图片提示生成多样化的3D模型。
英伟达与设计工具Shutterstock合作训练“文本生成3D”模型,大幅缩短从创建到发布具有精美纹理、结构化的3D模型的周期。
谷歌推出的DreamFusion项目,同样受到关注。
国盛证券在研报中指出,作为生产力工具,AIGC能够对3D生成内容起到降本增效的重要作用,这将加速推动产业变革,并带给用户更加逼真的视觉体验,包括影视、游戏、建筑、营销等多个场景都将受益,加速元宇宙时代的到来。
AI概念的热潮正涌向影视行业。随着AI的使用场景越来越广泛,自动生成3D类大模型的出现或将再次激发影视行业发展的活力。《复仇者联盟》导演乔·罗素的预测,影视行业在两年后有望出现一部完全由AI制作的电影。
复旦大学和上海AI lab的研究人员推出了3DGen-Arena。这是一个针对3D生成模型的人工评测竞技场,旨在让大众进行公开、匿名的评测。该平台不仅支持匿名投票和比较,还提供交互功能,通过多维度的用户评测来优化3D模型生成质量,推动技术和算法的进一步发展。此外,3DGen-Arena分为文生3D和图生3D两个赛道,提供360°环绕视频展示,并允许用户根据几何合理性、精细度、纹理质量、一致性等维度进行投票。目前平台上已有19个开源3D生成模型,参与者可以通过匿名投票或与指定模型进行比较来进行评测。
3D AI大模型面临的挑战主要包括数据质量和多样性、高成本和长周期、精度与效率的矛盾以及巨大的算力需求。其中,精度与效率的矛盾是3D建模中的一个痛点。在3D建模中,精度越高,模型的质量就越好,但同时建模的效率就会降低。这些挑战需要通过技术创新和数据积累来逐步克服。