AI「脑补」画面太强了!李飞飞团队新作ZeroNVS,单个视图360度全场景生成

OpenCV学堂 2023-11-06 20:38



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】斯坦福和谷歌团队提出了ZeroNVS,可以实现单个图像零样本360度试图合成。

近来,利用3D感知扩散模型训练模型,然后对单个物体进行SDS蒸馏的研究数不胜数。

但是,能够真正做到「场景级」的画面生成,从未实现。

现如今,斯坦福李飞飞和谷歌团队打破了这个记录!

比如,输入一张从某个角度拍摄的客厅图片,整个客厅的样貌就出来了。

再来一张角度很偏的屋子拐角图,也能生成一个意想不到的空间。

还有各种物体室内、户外的全场景图。

看到这儿,不得不不让人惊呼AI「脑补」简直强的一批!

那么,这究竟是如何实现的呢?

3D感知扩散模型——ZeroNVS


最新论文中,斯坦福和谷歌研究人员引入了一种3D感知扩散模型——ZeroNVS。

论文地址:https://arxiv.org/pdf/2310.17994.pdf

单图像、360度新视图合成 (NVS) 的模型,在生成图像时应该逼真且多样化。

合成图像对于我们来说,应该看起来自然且3D一致,并且它们还应该捕获不可观察区域的许多可能的解释。

以往,这个具有挑战性的问题,通常是在单个物体,甚至没有背景下研究的,也就是说,对真实性和多样性的要求都被简化了。

最近的研究依赖于高质量大规模数据集,比如Objaverse-XL,使得条件散射模型能够从新视角产生逼真图像,然后通过SDS蒸馏采样,以提高3D一致性。

同时,由于图像多样性主要体现在背景中,而不是物体中,因此对背景的无知显着降低了合成多样化图像的效果。

事实上,大多数以物体对象为中心的方法,不再将多样性视为衡量标准。

然而,在复杂真实场景生成新视角合成是一个更难的问题,目前还没有包含完整场景真值信息的大规模数据集。

研究人员在研究中对背景进行了建模,以产生多样的结果。

在ZeroNVS中,作者开发了新技术来预测单个真实图像的场景,并且建立在之前在3D感知扩散模型训练(Zero-1-to-3)和SDS蒸馏(DreamFusion)方面的工作基础上。

具体方法

研究人员着手从单个真实图像合成场景级新颖视图的问题。

与之前的工作类似,我们首先训练扩散模型来执行新颖的视图合成,然后利用它来执行3D SDS蒸馏。

与之前的工作不同地方在于,作者关注的是场景而不是物体。

场景提出了一些独特的挑战。首先,先前的研究使用摄像机和比例的表示,这些表示对于场景来说要么含糊不清,要么表达力不足。

其次,先前研究的推理过程是基于 SDS 的,它具有已知的模式崩溃问题,并且通过大大减少预测视图中的背景多样性在场景中体现出来。

与之前的工作相比,研究人员尝试了通过「改进场景的表示」和「推理程序」来应对这些挑战。

在这个公式中,M的输出,和单个图像的输入是模型可用于视图合成的唯一信息。

表示视图综合的对象

如下图,3DoF相机姿势捕获指向原点的相机的相机仰角、方位角和半径,但无法表示相机的滚动(如图)或空间中任意方向的相机。

具有这种参数化的模型无法在现实世界数据上进行训练,其中许多相机姿势不能用3DoF姿势充分表示。

表示视图合成的通用场景

对于场景,研究人员应该使用具有6个自由度的相机表示,可以捕获所有可能的位置和方向。

捕获六个自由度的相机参数化的一种直接选择是相对位姿参数化。研究人员建议还将视野作为额外的自由度,并将这种组合表示称为「6DoF+1」。

M 6DoF+1的一个吸引人的特性是它对于场景的刚性变换具有不变性,因此可以得到:

对于每个归一化方案,ZeroNVS中多个样本的Sobel边缘图方差的热图。研究者提出的方案M 6DoF+1,观察者减少了由于尺度模糊而导致的随机性。

通过SDS anchoring提高多样性

基于SDS的NeRF蒸馏(左)对所有360度新视图使用相同的引导图像。

作者的「SDS anchoring」(右)首先通过DDIM对新视图进行采样,然后使用最近的图像(无论是输入还是采样的新视图)作为指导。

实验结果


再具体评估中,研究人员使用了一组标准的新视图合成指标来评估所有方法:PSNR、SSIM和LPIPS。

由于PSNR和SSIM有已知缺点,研究人员更看重LPIPS,并确认PSNR和SSIM与问题设置中的性能没有很好的相关性,如图7所示。

结果如表1所示。

首先与基线方法 DS-NeRF、PixelNeRF、SinNeRF、DietNeRF进行比较。

尽管所有这些方法都是在DTU上进行训练的,但研究人员从未在DTU上进行过训练,但实现了最先进的LPIPS零样本。

图8中显示了一些定性比较。

DTU场景仅限于相对简单的前向场景。

因此,研究人员还引入了一个更具挑战性的基准数据集,即Mip-NeRF 360数据集,来对单张图像的360度视图合成任务进行基准测试。

研究人员使用这个基准作为零样本基准,并在混合数据集上训练3个基线模型来比较零样本性能。

限制这些零样本模型,其方法在该数据集的LPIPS上遥遥领先。在DTU上,新方法在所有指标上都超过了Zero-1-to-3和零样本PixelNeRF模型,而不仅仅是LPIPS,如表2所示。

作者介绍


Kyle Sargent

斯坦福大学的一名博士生,从2022年秋季开始,在斯坦福人工智能实验室工作,导师是Jiajun Wu和李飞飞。

他还曾在谷歌研究院担任学生研究员。


参考资料:

https://twitter.com/drfeifei/status/1719778264947016077

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 三、芯片的制造1、制造核心流程 (1)晶圆制备:以高纯度硅为基底,通过拉晶、切片、抛光制成晶圆。 (2)光刻:光刻、离子注入、薄膜沉积、化学机械抛光。 (3)刻蚀与沉积:使用干法刻蚀(等离子体)精准切割图形,避免侧壁损伤。 (4)掺杂:注入离子形成PN结特性,实现晶体管开关功能。2、材料与工艺创新 (1)新材料应用: 高迁移率材料(FinFET中的应变硅、GaN在射频芯片中的应用); 新型封装技术(3D IC、TSV硅通孔)提升集成度。 (2)工艺创新: 制程从7nm到3nm,设计架构由F
    碧海长空 2025-04-15 11:33 186浏览
  • 一、智能语音播报技术演进与市场需求随着人工智能技术的快速发展,TTS(Text-to-Speech)技术在商业场景中的应用呈现爆发式增长。在零售领域,智能收款机的语音播报功能已成为提升服务效率和用户体验的关键模块。WT3000T8作为新一代高性能语音合成芯片,凭借其优异的处理能力和灵活的功能配置,正在为收款机智能化升级提供核心技术支持。二、WT3000T8芯片技术特性解析硬件架构优势采用32位高性能处理器(主频240MHz),支持实时语音合成与多任务处理QFN32封装(4x4mm)实现小型化设计
    广州唯创电子 2025-04-15 08:53 95浏览
  • 展会名称:2025成都国际工业博览会(简称:成都工博会)展会日期:4月23 -25日展会地址:西部国际博览城展位号:15H-E010科士威传动将展示智能制造较新技术及全套解决方案。 2025年4月23-25日,中国西部国际博览城将迎来一场工业领域的年度盛会——2025成都国际工业博览会。这场以“创链新工业,共碳新未来”为主题的展会上,来自全球的600+ 家参展企业将齐聚一堂,共同展示智能制造产业链中的关键产品及解决方案,助力制造业向数字化、网络化、智能化转型。科士威传动将受邀参展。&n
    科士威传动 2025-04-14 17:55 83浏览
  • 二、芯片的设计1、芯片设计的基本流程 (1)需求定义: 明确芯片功能(如处理器、存储、通信)、性能指标(速度、功耗、面积)及目标应用场景(消费电子、汽车、工业)。 (2)架构设计: 确定芯片整体框架,包括核心模块(如CPU、GPU、存储单元)的协同方式和数据流路径。 (3)逻辑设计: 通过硬件描述语言(如Verilog、VHDL)将架构转化为电路逻辑,生成RTL(寄存器传输级)代码。 (4)物理设计: 将逻辑代码映射到物理布局,涉及布局布线、时序优化、功耗分析等,需借助EDA工具(如Ca
    碧海长空 2025-04-15 11:30 143浏览
  • 在当今汽车电子化和智能化快速发展的时代,车规级电子元器件的质量直接关系到汽车安全性能。三星作为全球领先的电子元器件制造商,其车规电容备受青睐。然而,选择一个靠谱的三星车规电容代理商至关重要。本文以行业领军企业北京贞光科技有限公司为例,深入剖析如何选择优质代理商。选择靠谱代理商的关键标准1. 授权资质与行业地位选择三星车规电容代理商首先要验证其授权资质及行业地位。北京贞光科技作为中国电子元器件行业的领军者,长期走在行业前沿,拥有完备的授权资质。公司专注于市场分销和整体布局,在电子元器件领域建立了卓
    贞光科技 2025-04-14 16:18 142浏览
  • 一、智能门锁市场痛点与技术革新随着智能家居的快速发展,电子门锁正从“密码解锁”向“无感交互”进化。然而,传统人体感应技术普遍面临三大挑战:功耗高导致续航短、静态人体检测能力弱、环境适应性差。WTL580微波雷达解决方案,以5.8GHz高精度雷达感知技术为核心,突破行业瓶颈,为智能门锁带来“精准感知-高效触发-超低功耗”的全新交互范式。二、WTL580方案核心技术优势1. 5.8GHz毫米波雷达:精准感知的革命全状态人体检测:支持运动、微动(如呼吸)、静态(坐卧)多模态感知,检测灵敏度达0.1m/
    广州唯创电子 2025-04-15 09:20 82浏览
  •   无人装备作战协同仿真系统软件:科技的关键支撑   无人装备作战协同仿真系统软件,作为一款综合性仿真平台,主要用于模拟无人机、无人车、无人艇等无人装备在复杂作战环境中的协同作战能力、任务规划、指挥控制以及性能评估。该系统通过搭建虚拟战场环境,支持多种无人装备协同作战仿真,为作战指挥、装备研发、战术训练和作战效能评估,提供科学依据。   应用案例   系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。   核心功能   虚拟战
    华盛恒辉l58ll334744 2025-04-14 17:24 89浏览
  • 四、芯片封测技术及应用场景1、封装技术的发展历程 (1)DIP封装:早期分立元件封装,体积大、引脚少; (2)QFP封装:引脚密度提升,适用于早期集成电路。 (3)BGA封装:高密度互连,散热与信号传输优化; (4)3D封装:通过TSV(硅通孔)实现垂直堆叠,提升集成度(如HBM内存堆叠); (5)Chiplet封装:异质集成,将不同工艺节点的模块组合(如AMD的Zen3+架构)。 (6)SiP封装:集成多种功能芯片(如iPhone的A系列SoC整合CPU、GPU、射频模块)。2、芯片测试 (1
    碧海长空 2025-04-15 11:45 177浏览
  • 一、芯片的发展历程总结:1、晶体管的诞生(1)电子管时代 20世纪40年代,电子管体积庞大、功耗高、可靠性差,无法满足计算机小型化需求。(2)晶体管时代 1947年,贝尔实验室的肖克利、巴丁和布拉顿发明点接触晶体管,实现电子信号放大与开关功能,标志着固态电子时代的开端。 1956年,肖克利发明晶体管。(3)硅基晶体管时代 早期晶体管采用锗材料,但硅更耐高温、成本低,成为主流材料。2、集成电路的诞生与发展 1958年,德州仪器工程师基尔比用锗材料制成世界上第一块含多个晶体管的集成电路,同年仙童半导
    碧海长空 2025-04-15 09:30 109浏览
  •   高空 SAR 目标智能成像系统软件:多领域应用的前沿利器   高空 SAR(合成孔径雷达)目标智能成像系统软件,专门针对卫星、无人机等高空平台搭载的 SAR传感器数据,融合人工智能与图像处理技术,打造出的高效目标检测、识别及成像系统。此软件借助智能算法,显著提升 SAR图像分辨率、目标特征提取能力以及实时处理效率,为军事侦察、灾害监测、资源勘探等领域,提供关键技术支撑。   应用案例系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合
    华盛恒辉l58ll334744 2025-04-14 16:09 146浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦