多模态AI下一步是3D内容生成？新工具已火爆GitHub

科创板日报 2024-03-05 20:36 785浏览 0评论 0点赞

超低功耗CW32L083系列 边缘AI开发的奥秘，一场直播就能搞懂！

3D建模技术和3D模型广泛应用于医疗、游戏、影视、建筑、产品设计还是虚拟现实等领域；当下的3D内容生成工具已经不少；AI+3D建模技术当前也面临较多挑战，如3D数据与资产缺乏、AI训练难度高、商业化落地难度大等。

作者 | 宋子乔

多模态内容生成展示了AIGC广阔的应用空间， 3D有望成为下一个实现突破的模态。

近期，一款名为DUSt3R的AI新工具火爆微软旗下GitHub平台，只需2张图片2秒钟就能完成3D重建，无需测量任何额外数据。这款AI工具才上线没多久就登上GitHub热榜第二。有网友实测，拍两张照片就重建出了他家的厨房，整个过程耗时不到2秒钟。

3D模型生成通常需要MVS估计相机参数，并在3D空间中对相应的像素进行三角测量。该产品同原来不一样的是，它是一种对任意图像进行3D立体重建的全新范式，不需要相机校准以及视点姿态等先验信息。从而可以实现提供两个以上图像的情况下，进行3D建模重建。

3D建模指的是使用软件来创建三维对象或形状的数学表示形式的过程。3D建模技术和3D模型广泛应用于医疗、游戏、影视、建筑、产品设计还是虚拟现实等领域。

AI+3D建模是利用人工智能技术，自动化地生成高质量的3D模型的过程。传统的3D建模需要艺术家花费大量时间和精力进行手工创作，而AI生成则通过训练机器学习算法，使计算机能够自动学习和生成3D模型，极大地提高了效率和准确性，同时降低了整个制作成本。

用户只需要输入关键词或者上传一张2D图片，这些工具就能在段时间内直接生成多个比较初步的3D模型，而用户满意的话，则可以选择进一步生成精度更高的3D模型。

当下的3D内容生成工具已经不少，目前海外在AI+3D技术上主要分为工业场景探索与非工业场景探索。非工业场景应用探索主要以谷歌的DreamFusion和英伟达的Magic3D为代表，主要面向游戏、元宇宙中的3D资产设计；工业场景应用则主要以衍生式设计软件为主，如PTC的Creo以及Autodesk的Fushion360均提供衍生式设计能力。

国内比较知名的3D生成AI模型包括：字节跳动研究团队开发的MVDream；由幻方量化旗下的一家大模型企业DeepSeek开发的DreamCraft3D；影眸科技从2016年开始进行人脸采集生成3D模型的业务。据该公司CTO张启煊介绍，其人脸生成3D的服务，应该是目前国内3D生成里面唯一一个走进游戏生产端的产品……

同一个prompt，最右侧是MVDream的成品

用户输入文本：“奔跑在树林中，搞笑的猪头和孙悟空身体的混合形像”，DreamCraft3D生成的内容

从ChatGPT代表的文生文，到DALL•E代表的文生图，再到Sora代表的文生视频，多模态已经成为了共识的AI发展趋势。中泰证券旗帜鲜明地提出，继文本、代码、图片、视频之后，下一个有可能实现突破的模态大概率是3D，“SORA之后的下一步：文生3D”。未来随着数字化的持续发展，3D资产数量的快速增长，3D建模的自动化生成或成为新的发展风口，而以各种大模型为代表的AIGC生产能力赋能3D建模，以及文生3D需求持续增长，都将促进AI赋能3D建模的快速发展。

不过AI+3D建模技术当前也面临较多挑战，如3D数据与资产缺乏、AI训练难度高、AI实时渲染技术有限、商业化落地难度大等问题。

该机构进一步称，产业视角建议持续跟踪关注文生3D建模领域的进展，标的视角BIM领域重点关注广联达、盈建科；CAX领域重点关注中望软件、索辰科技、浩辰软件；EDA领域重点关注华大九天、概伦电子。