自监督学习——或许是自动驾驶 Corner Case 的终结者

汽车电子与软件 2021-05-16 20:39

采样电阻OUT！Allegro磁传感方案实战揭秘 实测解析：高精度电流传感在BMS与智能家居中的设计取舍

有人说，自动驾驶已经解决了90%的问题，但剩下10%的问题却是最难解决的，这10%包括很多边界化难题，经常被称为Corner Case。边界化难题一般是指从未遇到过的问题，因为缺少数据，自动驾驶车无法应对这些问题，比如下图这个披着恐龙服的小孩。

也有人说，人工智能这东西，有多少智能，就有多少人工。因为目前深度学习技术常运用监督式学习，这种方式过于依赖大规模标注数据集，需要耗费大量的人力来完成数据集的收集和人工标注。对于自动驾驶而言，通过实际路测获得足够多的有意义的数据更不是一件容易的事。

这些老大难的问题，在自监督学习这一概念的支撑下似乎都有解了。

近日，国内自动驾驶公司轻舟智航联手约翰霍普金斯大学的学者，借助自监督学习，从未标注的激光雷达点云和配对的相机图像中获得了点云运动信息，在不需要标注数据的情况下，就可以较好地理解交通参与者的运动。

目前，这一研究成果已被 CVPR 2021 收录。CVPR是一年一度的学术性会议，也是世界顶级的计算机视觉会议之一。

自监督学习是人工智能蛋糕里最大的一块

在介绍这一成果之前，我们先来看下究竟什么是自监督学习。

监督学习需要有大量的标注数据，被学术界诟病已久，加州大学伯克利分校教授Jitendra Malik就曾经说过：“监督学习是人工智能研究人员的鸦片”。而在卡耐基梅隆大学教授Alyosha Efros看来，“属于人工智能的革命是不会受到监督的”（ The AI revolution will not be supervised）。

自监督学习解决的是监督学习过于依赖大规模标注数据集的难题，能从大规模未标记数据中学习特征，无需使用任何人工标注数据。目前已被应用在自然语言处理和计算机视觉领域。

典型的自监督任务包括给照片上色：

把模糊的照片变高清：

自监督学习已经是AI领域里最令人兴奋的方向，深度学习三巨头之一、图灵奖得主、Facebook 首席 AI 科学家 Yann Lecun是这么比喻自监督学习的：“如果人工智能是一块蛋糕，那么蛋糕的最大一部分是自监督学习，蛋糕上的糖衣是监督学习，蛋糕上的樱桃是强化学习。”

为什么会想把自监督学习应用到车载激光雷达点云上

当自动驾驶汽车在行驶过程中，需要实时理解各种交通参与者的运动，这些运动状态信息对于各个技术模块来说都非常重要，涉及检测、跟踪、预测、规划等等。

自动驾驶汽车通常配有多个传感器，其中最常用的是激光雷达。因此，如何从点云中获得其他交通参与者的运动信息是一个重要课题，并且存在如下挑战：

•交通参与者的类别不一样，每个类别都表现出特定的运动行为；

•激光雷达点云的稀疏性导致两次激光雷达扫描的情况不能精确地对应起来；

•需要在很短的时间限制内和有限的车载算力下完成计算。

传统的做法，是通过识别场景中其它交通参与者，根据所观测到的历史信息，来预测交通场景会如何变化，从而实现预测。

但是，大多数识别模型都是为检测若干已知类别的物体而训练的。在实际情况中，经常会遇上没出现过的物体类别。这肯定不是长久之计。

还有一种做法是通过估计激光雷达点云每个点的3D运动来从点云中估计场景流，但这样做对计算的要求太高了，自动驾驶车又特别需要达到实时性，所以根本无法进行实际应用。

第三种做法是基于BEV（bird’s eye view）的方式，把激光雷达的点云画成一个个小网格，每个网格单元被称为体柱，点云的运动信息可以通过所有体柱的位移向量来描述，该位移向量描述了每个体柱在地面上的移动大小和方向。

这种表征方法成功简化了场景运动，反正只需要考虑在水平方向上的运动情况，而不用特别考虑垂直方向上的运动。这种方式的所有关键操作都可以通过2D卷积进行，计算速度非常快。但是，这种方式需要依靠大量带有标注的点云数据，但点云数据的标注成本比普通图像更高。

这些现状，激发了轻舟智航和约翰霍普金斯大学学者的研究兴趣。

据统计，一辆自动驾驶汽车每天会产生超过1TB的数据，但仅有不到5%的数据被利用，若能把其他数据也充分利用起来，在没有手工标注的数据上来进行学习，那可就太高效了。

用于自动驾驶的自监督“点云运动学习”

如图1所示，为了充分利用BEV中运动表征的优点，研究团队将点云组织成体柱（pillar），并将与每个体柱相关的运动信息称为体柱运动（pillar motion）

图1：该研究提出的自监督柱运动学习概览

研究团队先引入了一种基于点云的自监督学习方法，假设连续两次扫描之间的体柱或物体的结构形状是不变的。然而，这在大多数情况下是不成立的，因为激光雷达的稀疏扫描，连续的两个点云缺乏精确的点与点的对应。

解决方案是利用从相机图像中提取的光流来提供跨传感器的自监督和正则化。如图2所示，这种设计形成了一个统一的学习框架，包括激光雷达和配对相机之间的交互：

(1) 点云有助于将自车运动（ego-motion）导致的图像运动从光流中分解出来；

(2) 光流为点云中的体柱运动学习提供了辅助正则化；

(3) 反投影（back-projected）光流形成的概率运动掩膜（probabilistic motion masking）提升了点云结构的一致性。

注意，与相机相关的模块仅用于训练，在推理阶段不会被使用，因此，在运行时不会对相机相关的模块引入额外的计算。

（图注）图2：用于点云体柱运动估计的自监督学习框架。

如图2所示，该研究提出的运动学习方法将点云的结构一致性自监督与跨传感器的运动正则化紧密耦合。

正则化包括从光流中分解出自我运动，并在传感器之间执行运动一致性（motion agreement）。该研究还引入了一种基于反投影（back-projected）光流的概率运动掩膜（probabilistic motion masking）来增强点云的结构相似性匹配。

（图注）图3：概率运动掩膜说明，左：投影点在前向相机图像上的光流（已将自我运动分解）。右：点云的一部分，颜色表示非空体柱的静态概率。

首个能够在完全自监督框架下进行点云体柱运动预测的学习范式

研究成果的表现究竟如何，还是要靠事实来证明。

研究人员首先进行了各种组合实验，以评估设计中每个单独组件的贡献。如表1所示：

（图注）表1：每个单独组件的贡献，结果包括均值和中位误差。

研究团队将他们所采用的方法与表3中的各种监督算法进行了比较。

实验首先将提出的自监督模型与FlowNet3D 、 HPLFlowNet进行了比较，这些模型都在FlyingThings3D以及KITTI Scene Flow进行了预训练。

在表3中可以看到，该研究提出的模型在很大程度上优于这两种有监督的预训练模型。

值得注意的是，这一成果甚至优于或接近一些在基准数据集上全监督训练的方法，如FlowNet3D、HPLFlowNet、PointRCNN。

当使用真值标签进一步微调该研究提出的自监督模型时，该模型实现SOTA性能。如表3所示，对于快速运动的目标，微调模型明显优于MotionNet。

这说明研究团队提出的自监督模型为有效的监督训练提供了更好的基础，并且自监督学习的增益不会随着复杂的监督训练而减少。

（图注）表3：与SOTA结果对比。实验分为三个速度组，表中记录了平均误差和中位误差。

最后，实验展示了利用不同的自监督组合进行体柱运动估计的定性结果。

如图5所示，这些示例呈现了不同的交通场景。与该研究的完整模型相比，仅使用结构一致性损失的基本模型倾向于在背景区域（第1列和第5列）和静态前景目标（第2列和第3列）中生成假阳性运动预测。

与基本模型相比，完整模型还能够在移动目标上产生更平滑的运动（第5列和第6列）。此外，如第4列所示，基本模型中缺少场景右上角的移动卡车，但完全可以通过完整模型进行合理的估计。这再次验证了从相机图像中提取的运动信息的有效性。

（图注）图5：点云柱运动预测对比。第一行显示真值运动场，第二行显示的是该研究全模型的评估结果，而只使用结构一致性的基础模型的预测结果在第三行。每一列都演示了一个场景。

研究团队正是这样通过紧密整合激光雷达点云和配对相机图像来实现所需的自监督，这一成果也是全球首个能够在完全自监督框架下进行点云体柱运动预测的学习范式。

研究团队

研究团队中的两位主要成员都是来自轻舟智航：罗晨旭则是轻舟智航实习生，也是约翰霍普金斯大学（Johns Hopkins University）计算机科学系博士研究生；Alan Yuille是约翰霍普金斯大学计算机科学系的彭博杰出教授。

轻舟智航想必大家都不陌生，是2020年自动驾驶行业的黑马企业，用了不到一年时间便成为Robobus领域的第一，去年在苏州启动全国首个常态化运营的5G无人公交项目，目前已经在苏州、深圳、武汉等地都部署有公开道路的无人公交项目。

这家公司之所以如此强，除了因为出身不凡的创始团队背景，也还因为它其他团队成员都是来自Waymo、特斯拉、Uber ATG、福特、英伟达、Facebook等世界顶级公司的大牛。

据说近期正在大力招人，感兴趣的可以了解下。

阅读原文，获取PDF论文

—END—

投稿合作：18918250345（微信）

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

汽车电子与软件主要介绍汽车电子软件设计相关内容,每天分享一篇技术文章!

进入专栏

汽车电子与软件主要介绍汽车电子软件设计相关内容,每天分享一篇技术文章!

文章：1881篇粉丝：192人

 私信

自监督学习——或许是自动驾驶 Corner Case 的终结者

最近文章

热门文章

推荐

最新资讯