自动驾驶与辅助驾驶系统中相机与毫米波雷达的感知：概念，数据集和指标

智享新汽车 2023-04-01 20:25

年终搞个特价示波器奖励员工？ 无损芯片检测技术——X-RAY检测，可观察芯片内部结构、判断芯片质量及真假

文章：Camera-Radar Perception for Autonomous Vehicles and ADAS: Concepts, Datasets and Metrics

作者：Felipe Manfio Barbosa， Fernando Santos Oso´rio

编辑：点云PCL

来源：arXiv 2023

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。未经博主同意请勿擅自转载。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载，欢迎各位同学积极分享和交流。

摘要

减少交通事故的重要途径之一是通过辅助驾驶系统甚至实现完全自动驾驶系统提高车辆的安全性，在这些系统中，障碍物检测和分割等任务，特别是基于深度学习的任务，在场景理解中扮演着关键的角色，以确保正确和安全的导航。此外，现今车辆上广泛使用的传感器提供了丰富的替代方案，以改善在光照和天气恶劣条件下的感知鲁棒性等挑战性情况下的导航。因此，本文旨在对用于ADAS和自动驾驶车辆的相机和毫米波雷达感知的当前情况进行研究，介绍了与两种传感器以及它们的融合相关的概念和特征，此外概述了基于深度学习的检测和分割任务，以及车辆感知中的主要数据集，度量标准，挑战等开放问题。

主要贡献

在本次调查中，将针对自动驾驶车辆和ADAS中基于相机和雷达的感知使用的主要概念、数据集和指标进行研究。

首先，我们对ADAS和自动驾驶车辆进行了概念介绍，然后，我们分析了用于车辆感知的每种感应方式的优缺点，并讨论了传感器融合方法作为解决其局限性的解决方案。之后，介绍了基于深度学习的目标检测和图像分割的主要概念和一些最著名的工作。接下来总结了主要数据集和使用的指标，最后讨论了主要挑战，并考虑了该领域未来的发展方向。本研究的主要贡献如下：

• 全面描述了相机和雷达的特性，并讨论了在自动驾驶车辆和ADAS背景下其主要优点和缺点。此外，我们提出了传感器融合方法作为克服每种感知模式单独存在时出现的局限性的方法；

• 对自动驾驶中基于深度学习的目标检测和图像分割的主要概念进行了全面的概述；

• 对用于车辆感知的最相关和最新的开源数据集进行了全面汇总，介绍了它们在感知模式、数据多样性、大小和预期感知任务方面的主要特征；

• 对按数据集分组的用于评估检测和分割性能的主要指标进行了归纳；

• 对自动驾驶车辆和ADAS感知中主要挑战和未来发展方向进行了讨论，特别关注了毫米波雷达感知在此背景下的作用。

表格I总结了前述调查与我们工作的主要贡献的比较。与其他工作不同，本文不专注于精确描述感知中使用的方法，选择简要介绍基线模型并引用最新的模型供感兴趣的读者进一步查阅，总结了物体检测和图像分割中使用的指标，并按数据集分组。

主要内容

为了实现完全的自主性，车辆必须通过由汽车工程师学会(SAE)定义的六个驾驶员辅助技术级别来进步 - 如图1所示。

传感器

图2：自动驾驶车辆中常用的传感器示例

自动驾驶系统必须具有对其周围环境的强大感知能力，每个传感器都具有其特定的特性（如图2所示）。接下来我们将描述摄像机和毫米波雷达的主要操作特性、优点和局限性，此外还介绍数据融合技术作为改善单模态感知的一种方式。图3显示了相机、雷达和LIDAR传感器在考虑其操作特征的各种特性方面的比较，值得一提的是，尽管已经进行了许多关于LIDAR感知的研究，但我们专注于相机和毫米波雷达感知，因为它们的成本比LIDAR传感器要低得多，有趣的是，一些作者认为毫米波雷达数据可以替代车辆感知中的LIDAR数据，实际上，如图3所示，如果相机和毫米波雷达结合起来，就可以满足考虑的所有特性，因此是LIDAR感知的可行替代方案。

图3：相机、毫米波雷达和激光雷达传感器特性方面的比较

相机：相机是被动传感器，通过接收环境中的光线信息来工作，这种特性使相机成为从环境中捕捉颜色、形状和纹理信息的合适传感器，另一方面，它也意味着相机在恶劣照明或天气条件下容易受到损坏的敏感限制，如图 7 所示，阳光反射或低照明条件在日出或夜晚可能对相机感知产生不利影响。此外，相机还会受到尘土、雨、雪或雾的遮挡。

图7：在不良条件下操作的示例

单目视觉: 单目视觉是计算机视觉中最常见的感知模式，然而，单目视觉方法的主要局限性在于数据中缺乏深度概念，这可能特别危及在城市环境中的感知，因为有许多形式的视觉信息，在不考虑物体深度的情况下，可能会错误地将二维图形分类为实体 - 如图 4。

图4：2D感知中出现错误的示例

2. 双目视觉: 双目摄像头，例如图5所示的摄像头，弥补了单目视觉中深度信息的缺失，提供了对环境的三维感知。

图5：StereoLabs的立体相机ZED2

这种类型的传感器通过捕捉偏移一定量的单目相机图像运行，从这对图像和相机的内参参数，产生视差图，然后转换为场景深度图（图6）。

图6：场景及其深度图

它的主要优点在于生成同时包含轮廓和深度信息的图像，这促使它被广泛应用于各种目的，然而，它也有严重的局限性，第一个限制涉及其低范围，从20到30米，这在自动驾驶汽车应用方面尤为不利，因为需要更大的范围，以便车辆能够及时采取行动以避免进一步的风险，第二个限制与数据中缺少颜色或纹理线索有关，最后一个限制是在不利条件下受到的退化。

毫米波雷达：传感器通过发射和接收电磁脉冲来运作，遵循类似于声波反射的原理，首先，发射器产生具有高功率的射频脉冲，通过天线传输到介质中（通常是空气），当脉冲到达物体时，这些脉冲会产生回波（或回声），由于向该物体传输射频能量而导致，一小部分反射能量通过天线返回雷达，并被定向到接收器，最后，接收器将能量发送到信号处理器，以确定所识别物体的方向，距离，甚至速度。它的主要优点是其长距离以及对天气和照明条件的强健性，这些特征使得能够确定肉眼不可见的障碍物的位置，甚至相对于其他传感器（例如摄像机）由于距离，黑暗或天气的原因而不可见。近年来，使用毫米波雷达数据的基于深度学习的对象检测受到越来越多的关注，[99]提出了一个名为DANet的网络，通过提取时间和多尺度空间特征，在范围-角度雷达图像中检测对象。[101]在Ultra-Wide Band雷达信号处理中应用循环神经网络进行道路障碍物检测。[103]介绍了一种基于雷达的实时区域建议方法，可以集成到任何对象检测网络中，例如Fast R-CNN。[104]研究了将Faster R-CNN [64]和SSD [69]应用于雷达图像处理中的目标检测。[105]提出了一种基于处理范围-方位-多普勒张量的车辆检测架构。然而，基于雷达的分割文献仍然很少，[100]的工作提出了基于PointNet ++ [83]的RadarPCNN模型，对雷达点云进行语义分割。[102]解决了机器人导航中的开放空间分割问题，重点是低内存占用和实时处理。这种传感器的主要限制在于无法确定检测到的对象的形状，图9显示了代表检测到的物体的雷达读数的示例。

图9：雷达检测结果以点的形式表示

传感器融合

为了缓解相机和毫米波雷达传感器的限制并从中受益，目前已经提出了混合数据融合的方法，这些方法旨在整合两种感知模式，以生成更丰富的环境表示，最终有助于更强大的感知。在[12]中，数据融合被提出作为未来与自动驾驶车辆相关的发展的中心支柱之一，作者还讨论了相机-毫米波雷达融合相对于单一感知模式的优势（图8）。

图8：传感器融合相对于基于单一感知模式的优势

早期融合：或数据级融合，将来自不同感知模式的输入数据融合在一起，或者，它还可以融合网络的初始层中的特征，早期融合的主要优点是充分探索原始数据和低计算成本，因为网络共同处理融合的感知模式，因此共享网络计算。然而，它也有缺点，第一个是模型的不灵活性，需要在感知模态更换的情况下重新训练。第二个缺点是对空间时间错配的敏感性，由于校准误差、感知率或传感器故障而引起。

中期融合：或特征级融合，涉及融合网络的中间层的特征，它可以是其中之一:一层融合，深度融合或快捷融合，分别为图10 (c)，(d)和(e)。中期融合的主要缺点是在每个特定的网络架构中找到最佳融合方案的困难。

后期融合：或决策级融合，在网络处理流程的后续步骤中更接近输出，它将不同感知模式的专业网络(experts)的输出结合起来，它的主要优点在于模型的灵活性，因为引入新的感知模态时，只需重新训练其专家网络，另一方面，主要缺点是计算和内存成本高，以及可能丢弃中间层中的重要特征。在[10]中，作者通过提出一个深度学习模型来自动学习在网络结构的哪个级别上融合最有益来回答“何时融合”的问题

图10：早期融合、中期融合和后期融合的方案

感知任务

在自动驾驶汽车和ADAS的背景下，通过前面描述的传感器获取的数据用于多种感知任务，特别是在深度学习的推动下，考虑到计算机视觉领域，诸如目标检测和图像分割等任务至关重要。

检测：对象检测旨在在图像中定位元素并加以分类，可以采用2D或3D边界框。在第一种情况下，每个元素与一个标签（表示其类别）和一个2D边界框（表示其位置）相关联（图11(a)），在3D检测中，除标签和3D边界框（图11(b)）外，每个实体还与速度、方向甚至动作描述子（如车辆是否移动、停放或停止）等信息相关联。检测是文献中广泛研究的任务，在良好的导航条件下可以被视为已解决，因为已经有了在这种情况下极快且准确的深度学习模型，如基于深度学习的物体探测器可分为两大类：一阶段和二阶段探测器。二阶段探测器是文献中提出的第一组基于深度学习的探测器。它们试图分两步解决多对象检测的任务。第一步涉及生成区域提案，表示图像中具有物体的概率较高的区域。然后，在第二步中，这些区域提案由CNN处理，以获得物体位置和分类。在这个组内，区域提议架构系列（称为R-CNN）脱颖而出，R-CNN是先驱方法。它的后继者试图解决之前版本的问题。Faster R-CNN 允许端到端的训练，Faster R-CNN将区域提案生成集成到整个流程中，Mask R-CNN虽然是为了实例分割目的而提出的，但也有分类和检测分支，并在检测精度方面实现了更好的性能。一阶段探测器试图在一次通道中解决多对象检测问题，提供更快的性能-更快的推理，更高的每秒帧数。

图 11: 2D和3D的检测实例

图像分割：图像分割是指在像素级别对图像进行分类的任务，每个像素都与一个标签相关联，指的是被考虑的类别之一，见图11（c）。基本上有三种类型的分割：语义分割，实例分割和泛类分割。下面将介绍这三种类型。

1）语义分割：语义分割包括像素级别的图像分类，没有区分同一类别的实例，这种类型的图像分割中的第一个显著工作是在2015年发表的。Fully Convolution Networks（FCN）提出通过作者称为“卷积化”的过程将全连接层替换为其卷积等效层。这样，在移除所有密集层之后，网络可以处理任何大小的图像，并且不是输出类别向量，而是生成一个“热图”形式的密集分类（像素级预测）。在这种表示类型中，每个2D位置表示原始图像中的一个像素，并且与每个类别相关的概率存储在其深度沿着的位置上。

2）实例分割：实例分割在语义分割的基础上进行了改进，因为它区分了可计数类别的元素，如汽车、行人和自行车。然而，它不能对不规则或不可计数的类别进行分类，如天空、建筑物和街道。其中一个最著名的实例分割方法是 Mask R-CNN 。该方法通过将一个面具预测分支添加到现有的边框分支中来扩展 Faster R-CNN，从而实现了同时检测和实例分割，且额外开销很小。

3）泛类分割：泛类分割将前两种分割模式的优点结合在一起，为可数元素（实例分割）（例如汽车和行人）和不规则/不可数元素（语义分割）生成掩模（分割）。

在车辆应用中，实时操作是一个至关重要的要求，因为它可以快速反应可能存在的风险，尽管图像分割是一个成熟度很高的研究课题，但大部分的研究工作都集中在提高准确性上，当我们加入实时约束时，需要一种新的轻量级、高效和快速的图像分割方法和架构。

图12：语义分割（a）、实例分割（b）和全景分割（c）的示例。

数据集

直到最近，为自动驾驶车辆感知任务构建的数据库主要基于2D图像数据，大多数情况下是在理想导航条件下捕获的，然而，对于在具有挑战性的场景中进行导航的越来越关注，以及因此向数据融合策略的迁移，已经鼓励创建涵盖不良导航条件和多种感知模式的数据集。下面介绍了用于车辆感知的主要数据库。我们进行了分析-总结在表II中，涉及到的感知模式、不良条件的存在、意图的应用类型以及数据集大小。

此外，2012年至2021年期间相机和毫米波雷达标注数据的可用性-深度学习中监督学习的必要条件-在图17中有所说明。

图17：自2015年至2021年，针对自主驾驶车辆和ADAS中的检测和分割，毫米波雷达和摄像机标注数据的可用性

用于评估检测和分割方法性能的指标集非常广泛。通常，这些度量标准是与数据库的提出一起定义的。因此，根据所考虑的基准测试，它们的计算方法可能会有所不同。表III总结了每个数据库使用的指标。

总结

本文介绍了与ADAS、自动驾驶车辆以及全自动驾驶之间的基本概念相关的一些基础知识，然后介绍了基于相机和雷达的感知的主要概念和当前情况，并强调了在恶劣天气和光照条件下考虑传感器融合技术对于稳健感知的重要性，接下来，我们介绍了基于深度学习的检测和分割的主要概念，随后分析了目前用于促进自动驾驶车辆和ADAS研究的数据集，涵盖了不同的特征，例如提供的数据模态、逆境导航条件的覆盖范围、其大小和目的。然后，讨论了评估检测和分割方法性能的最常见指标，最后提出了该领域面临的一些主要挑战和未解决问题。该审查的结果表明，对于能够在具有挑战性的操作条件下稳健感知的车辆感知方法的发展越来越受到关注，这通过毫米波雷达和数据融合方法的不断增加和使用来体现，然而，这些方法仍未得到充分探索，在精度和效率方面还有很大的提升空间，此外，采用用于评估感知方法性能的标准度量方法，与ADAS和自动驾驶的监管尝试保持一致，可以帮助加速该领域的发展，最后强调提供平衡和多样化的数据对于开发稳健的辅助和自主系统至关重要，训练深度学习模型识别少数类别，例如骑自行车的人，并处理具有多样性的交通基础设施、天气和光照条件对于未来交通的道路安全至关重要。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

ROS2入门之基本介绍

固态激光雷达和相机系统的自动标定

激光雷达+GPS+IMU+轮速计的传感器融合定位方案

基于稀疏语义视觉特征的道路场景的建图与定位

自动驾驶中基于激光雷达的车辆道路和人行道实时检测（代码开源）

用于三维点云语义分割的标注工具和城市数据集

更多文章可查看：点云学习历史文章大汇总

SLAM及AR相关分享

TOF相机原理介绍

TOF飞行时间深度相机介绍

结构化PLP-SLAM：单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案

开源又优化的F-LOAM方案：基于优化的SC-F-LOAM

【开源方案共享】ORB-SLAM3开源啦！

【论文速读】AVP-SLAM：自动泊车系统中的语义SLAM

【点云论文速读】StructSLAM:结构化线特征SLAM

SLAM和AR综述

常用的3D深度相机

AR设备单目视觉惯导SLAM算法综述与评价

SLAM综述(4)激光与视觉融合SLAM

Kimera实时重建的语义SLAM系统

SLAM综述(3)-视觉与惯导，视觉与深度学习SLAM

易扩展的SLAM框架-OpenVSLAM

高翔：非结构化道路激光SLAM中的挑战

基于鱼眼相机的SLAM方法介绍

更多详细内容后台发送“知识星球”加入知识星球查看更多。

智驾全栈与3D视觉学习星球:主要针对智能驾驶全栈相关技术，3D/2D视觉技术学习分享的知识星球，将持续进行干货技术分享，知识点总结，代码解惑，最新paper分享，解疑答惑等等。星球邀请各个领域有持续分享能力的大佬加入我们，对入门者进行技术指导，对提问者知无不答。同时，星球将联合各知名企业发布自动驾驶，机器视觉等相关招聘信息和内推机会，创造一个在学习和就业上能够相互分享，互帮互助的技术人才聚集群。

以上内容如有错误请留言评论，欢迎指正交流。如有侵权，请联系删除