本文提供了最近基于transformer的3D目标检测任务的文献综述,主要集中于传感器融合,介绍了视觉transformer(ViT)的基础知识,还简要论述了用于自动驾驶的传感器融合的几种非transformer式较少占主导地位的方法。最后总结了transformer在传感器融合领域中的作用,并提出了该领域的未来研究方向。
更多内容可以参考:https://github.com/ApoorvRoboticist/Transformers-SensorFusion
传感器融合是整合来自不同信息源的感知数据,利用不同传感器捕获的互补信息,融合有助于减少状态估计的不确定性,并使3D目标检测任务更加稳健。目标属性在不同的模式中不具有同等的可识别性,因此需要利用不同的模式并从中提取补充信息。例如,激光雷达可以更好地定位潜在物体,radar可以更好地估计场景中物体的速度,最后但并非最不重要的是,相机可以通过密集的像素信息对物体进行分类。
现有的传感器融合模型的总体架构图如上所示,基于transformer的Head(绿色),基于CNN的特征提取器(蓝色),用于预测3D鸟瞰图(BEV)边界框(黄色块),每个传感器具有中间BEV特征(紫色块),该传感器融合设置为从多视图相机、激光雷达和雷达接收输入。
虽然CNNs可用于在单个模态内捕获全局上下文,但将其扩展到多个模态并精确地建模成对特征之间的交互是非常重要的。为了克服这一限制,使用transformer的注意力机制将关于2D场景的全局上下文推理直接集成到模态的特征提取层中。序列建模和视听融合的最新进展表明,基于Transformer的体系结构在序列或跨模态数据的信息交互建模方面非常有效。
1.应用基于神经网络的主干从所有模态中单独提取空间特征;
2.在transformer模块中迭代细化一小组学习嵌入(目标Query/proposal),以生成一组3D box的预测;
3.计算loss;
该架构如图1所示。
-END-