这项技术有望实现更安全的自动驾驶、更高效的增强现实/虚拟现实(AR/VR)设备以及更快的仓库机器人。
通常我们驾驶汽车行进在隧道中,当隧道出口前方发生事故时,如果前方车辆没有采取刹车制动,我们是无法提前预知的。这种情况下,如果车辆能够“看到”人类驾驶员视线以外的区域并更快地踩下刹车,将大大提高车辆的安全性。
据麦姆斯咨询报道,麻省理工学院(MIT)和Meta公司的研究人员开发了一种基于单光子激光雷达(LiDAR)的计算机视觉技术,或能在未来帮助自动驾驶汽车做到这一点。
他们引入了一种新方法,可以利用单个激光雷达位置获取的信息,创建整个场景物理精确的3D模型,包括视线遮挡的区域。他们在这项技术中利用阴影来确定场景中被遮挡部分的情境。
他们将这种方案称为“PlatoNeRF”,基于希腊哲学家柏拉图的洞穴寓言,这是其著作《理想国》中的一段,故事中被锁在洞穴中的囚犯,根据投射在洞穴墙壁上的阴影来辨别外部世界的真实情况。
通过将单光子激光雷达技术与机器学习相结合,PlatoNeRF可以生成比某些现有AI技术更准确的3D几何重建。此外,PlatoNeRF在平滑地重建阴影难以分辨的场景时表现更为出色,例如环境光高亮或背景较暗的场景。
除了提高自动驾驶汽车的安全性,PlatoNeRF还可以使用户无需走动测量,即可对房间的几何形状进行建模,从而提高AR/VR设备的效率。它还可以帮助仓库机器人更快地在杂乱的环境中找到物品。
“这一概念的关键是将之前在不同学科完成的两件成果结合在一起:多重反射单光子激光雷达和机器学习算法。事实证明,两者的结合,带来了很多新的探索机遇。”麻省理工学院媒体艺术与科学专业的研究生、PlatoNeRF论文主要作者Tzofi Klinghoffer说道。
揭示问题
从一个激光雷达视角重建完整的3D场景是一个很复杂的问题。
一些机器学习算法采用生成式人工智能模型,试图猜测遮挡区域中的物体,但这些模型可能会幻想出并不存在的物体。还有其它方法尝试使用彩色图像中的阴影来推断隐藏物体的形状,但当阴影难以辨别时可能会遇到困难。
对于PlatoNeRF,麻省理工学院的研究人员利用了一种称为单光子激光雷达的新传感模态。激光雷达通过发射光脉冲并测量光反射回传感器所需的时间来测绘3D场景。由于单光子激光雷达可以检测单个光子,因此它们可以提供更高分辨率的数据。
研究人员使用单光子激光雷达中的激光器照亮场景中的目标点。一些光从该点反射并直接返回传感器。然而,大部分光线在返回传感器之前会被其它物体散射和反射。PlatoNeRF正是利用了这些二次光反射。
通过计算光线反射两次然后返回激光雷达传感器所需的时间,PlatoNeRF捕获有关场景的其它信息,包括深度。第二次反射的光还包含有关阴影的信息。
实验方案:PlatoNeRF通过单视角二次反射激光雷达的飞行时间学习3D场景几何形状,并使用NeRF建模。
系统追踪二次反射光,以确定哪些点位于阴影中。根据这些阴影的位置,PlatoNeRF可以推断出隐藏物体的几何形状。
研究人员采用的激光雷达系统包含位置Xs的SPAD和位置Xl的脉冲激光器。SPAD视角保持不变,而激光器依次照亮场景中的不同点(从I1到IK),对于每个照明点,测量光传播的飞行时间。
单光子激光雷达中的激光器依次照亮16个点,以捕获多个图像,用于重建整个3D场景。
“每次我们照亮场景中的一个点时,都会创建新的阴影。由于多个不同的照亮点,周围有很多传输的光线,所以我们可以划出被遮挡位于可见范围之外的区域。”Klinghoffer说。
成功的组合
PlatoNeRF的关键是将多重反射单光子激光雷达与被称为神经辐射场(NeRF)的特殊机器学习模型相结合。NeRF将场景的几何形状编码为神经网络的权重,这使模型具有强大的插值(或估算)能力,能够预测场景的新视图。
Klinghoffer说,当与多重反射激光雷达结合使用时,这种插值能力还可以实现高精度的场景重建。
“最大的挑战是弄清楚如何将它们结合起来。我们必须考量光如何通过多重反射单光子激光雷达传输的物理原理,以及如何通过机器学习对其进行建模。”他说。
他们将PlatoNeRF与两种常见的替代方法进行了比较,一种仅使用单光子激光雷达,另一种仅通过利用一张彩色图像的NeRF。
他们发现,他们的方案优于这两种技术,特别是当激光雷达传感器分辨率较低时。这将使他们的方案在现实世界更实用,因为在商业设备中,低分辨率的传感器更为常见。
“大约15年前,我们的团队发明了第一台能够‘看到’拐角后方的激光雷达,它的工作原理是利用多次光反射或‘光回声’。这些技术使用了特殊的激光器和传感器,并使用了三次光反射。从那时起,激光测距技术变得更加主流,这促使我们研究能够透过雾气的激光雷达。这项新工作仅使用两次光反射,这意味着信噪比非常高,并且3D重建质量很喜人。”研究人员介绍说。
未来,研究人员希望尝试跟踪两次以上的光反射,看看这将如何改善场景重建。此外,他们有兴趣应用更多的深度学习技术,并将PlatoNeRF与彩色图像测量相结合来捕捉纹理信息。
“尽管研究阴影图像作为3D重建的手段已有多年历史,但这项工作利用单光子激光雷达重新审视了这个问题,在重建隐藏几何体的准确性方面获得了显著提高。这项研究展示了巧妙的算法如何与普通传感器(许多人随身携带的iPhone智能手机就包含了激光雷达系统)相结合,进而实现非凡的功能。”多伦多大学计算机科学系助理教授David Lindell说道。