智能汽车安全新媒体
24年1月论文“Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies”,来自悉尼大学、Data61公司、比亚迪公司、圣母院(Notre Dame)大学、南方科技大学(文末附论文PDF下载方式)。
下一代自动驾驶(AD)技术的愿望依赖于智能感知、预测、规划和低级控制之间的集成和交互。自动驾驶算法性能的上限一直存在巨大的瓶颈,学术界和业界一致认为,克服瓶颈的关键在于以数据为中心的自动驾驶技术。
自动驾驶仿真、闭环模型训练和自动驾驶大数据引擎的最新进展已经获得了一些宝贵的经验。然而,对于如何构建高效数据为中心的自动驾驶技术来实现其算法的自我进化和更好的大数据积累,还是缺乏系统的知识和深刻的理解。
本文密切关注数据驱动自动驾驶技术,重点是自动驾驶数据集的全面分类,包含里程碑、关键特征、数据采集设置等特征。此外,从行业前沿对现有的基准闭环AD大数据流水线进行了系统的回顾,包括闭环框架的过程、关键技术和实证研究。最后,讨论了未来的发展方向、潜在应用、局限性和关注点,引起学术界和工业界的努力,促进无人驾驶的进一步发展。
文章架构如图所示:
最近[Ma2023;Li2023b]对AD感知算法进行了系统综述,[Huang2022]和[Ma2022]分别对AD预测/规划算法进行了全面调查。从数据驱动的自动驾驶角度,[Li2023a;Liu 2024]总结了主流自动驾驶数据集的发展情况。
对于闭环技术,[Zhang2022b]研究了如何将其用于基于强化学习(RL)方法的智能车辆规划。如图以里程碑为特征对开源自动驾驶数据集发展进行全面说明。强调传感器模态、合适的任务、数据集的收集点和相关挑战。
早期阶段,即2012年开始的第一代,由KITTI[Geiger2012]和Cityscapes[Cords2016]牵头,为感知任务提供高分辨率图像,是视觉算法基准进度的基础。推进到第二代,NuScenes[Cesar 2020]、Waymo[Sun2020]、Argoverse 1[Chang2019]等数据集引入了一种多传感器方法,将车载摄像头、高清地图(HD Map)、激光雷达、雷达、GPS、IMU、轨迹、周围物体的数据集成在一起,这对于全面的驾驶环境建模和决策过程至关重要。
最近,NuPlan[Caesar2021]、Argoverse 2[Wilson2021]和Lyft L5[Houston2021]显著提高了冲击门槛,提供了前所未有的数据规模,并培育了一个有利于尖端研究的生态系统。这些数据集以其庞大的规模和多模态传感器集成为特点,在开发感知、预测和规划任务的算法方面发挥了重要作用,为最先进的端到端或混合自动驾驶模型铺平了道路。
2024年迎来第三代自动驾驶数据集。在VLM[Wen2023;Cui2024]、LLM[Qian2021;Wu2023a]和其他第三代人工智能技术的支持下,第三代数据集强调了行业致力于应对自动驾驶日益复杂的挑战,如数据长尾分布问题、分布外OOD检测、极端案例分析等。
自动驾驶系统正在进步,但它们仍然缺乏在现实世界中稳健运行所必需的关键能力,例如准确处理未见的场景或不熟悉的目标,与人类驾驶员互动,为决策过程提供解释。
作为探索第三代AD大数据的先驱,DriveLM旨在通过将VLM、LLM和图可视化问答(GVQA)技术整合到AD堆栈中来应对这些挑战。DriveLM利用这些优势来促进规划的泛化,并通过能够理解和生成自然语言描述的模型来促进人机交互。
这种与人类通信的兼容性是与当前依赖纯端到端可微分架构的方法的关键区别。DriveLM在AD文本下的思维链GVQA设计方面,特别创新。GVQA包括制定Pi-3推理——由一系列问答对组成——以模拟驾驶中的人类推理过程。
除此之外,DirveLM还引入了专门的指标,用于更合乎逻辑和合理的方式评估绩效。
最近,世界模型[Ha&Schmidhuber2018;Lin2020]以其更先进的内在概念和更具前景的性能,已被用于高保真度AD数据生成。
世界模型可以被定义为一个人工智能系统,它构建其感知的环境的内部表示,并使用学习到的表示来模拟环境中的数据或事件。一般世界模型的目标是表示和模拟各种情况和互动,就像成熟的人类在现实世界中遇到的一样。
在自动驾驶领域,GAIA-1[Hu2023]和DriveDreamer[Wang2023]是基于世界模型的数据生成代表作。
GAIA-1是一个生成型人工智能模型,通过将原始图像/视频以及文本和动作提示作为输入,实现图像/视频到图像/视频的生成。GAIA-1的输入模态被编码成统一的token序列。这些tokens由世界模型内的自回归transformer处理,以预测后续的图像tokens。然后,视频解码器将这些tokens重建为具有增强的时间分辨率的连贯视频输出,从而实现动态和上下文丰富的视觉内容生成。
DriveDreamer在其架构中创新地采用了扩散模型,专注于捕捉现实世界驾驶环境的复杂性。它的两阶段训练流水线首先使模型能够学习结构化的交通约束,然后预测未来的状态,确保为自动驾驶应用程序量身定制的强大的环境理解。
在数据驱动的自动驾驶领域有一些先驱的工业实践[Farabet&Koumchatzky2020;El-luswamy2023;Gao2023]。
其中,特斯拉是一个代表,拥有其长期开发的车队学习流水线[M,2022]和自动驾驶系统。每当AutoPilot检测到极端案例时,都会有一个案例的快速“快照”记录,其中包括1分钟内所有主要传感器的数据。
在收到快照记录后,基于深度学习(DL)的模型和/或人类专家将对其进行分析,提取场景的特征,然后在大量车辆上打开“影子模式”[Silva2022],自动查找和记录在特征维度上与之前的极端情况高度相似的驾驶场景数据。新增的海量数据将反馈给AD算法进行模型训练和验证,有利于算法的升级和改进。
如下介绍两个先驱数据驱动闭环自动驾驶流水线的工作流程图:NVIDIA的MagLev AV平台(上)和特斯拉自动驾驶数据平台(下)。
NVIDIA MagLev AV平台[Farabet&Koumchatzky2020]遵循“收集→ 选择→ 标签→ 训练→ 测试”作为程序,它是一个可复制的工作流程,可以实现主动学习,并在循环中进行智能标注。
MagLev主要包括两条闭环流水线。第一个循环是以自动驾驶数据为中心,从数据摄入和智能选择开始,通过标记和标注,然后是模型搜索和训练。然后对经过训练的模型进行评估、调试,并最终部署到现实世界中。
第二个闭环是平台的基础设施支持系统,包括数据中心骨干和硬件基础设施。此循环包括安全的数据处理、可扩展的DNN和系统KPI、用于跟踪和调试的仪表板。它支持自动驾驶车开发的全周期,确保在开发过程中不断改进和整合真实世界的数据和模拟反馈。
特斯拉自动驾驶数据平台[Eluswamy2023]是另一个具有代表性的AD平台,它强调用大数据驱动的闭环流水线来显著提高自动驾驶模型的性能。
流水线从源数据收集开始,通常来自特斯拉的车队学习、事件触发车端数据收集和影子模式。收集到的数据将由数据平台算法或人类专家进行存储、管理和检查。
无论何时发现极端案例/不确定性,数据引擎都将从现有数据库中检索并匹配与极端案例/不确定性事件高度相似的数据样本。同时,将开发单元测试,复制场景并严格测试系统的响应。
之后,检索的数据样本将由自动标注算法或人类专家进行标记。然后,标记良好的数据将反馈给AD数据库,数据库将更新生成用于AD感知/预测/规划/控制模型新版本的训练数据集。经过模型训练、验证、仿真和真实世界测试,具有更高性能的新AD模型将发布和部署。
如下是主流AD数据标注流水线的详细工作流程。AD数据标签通常是特定于任务/模型的,具有预定义的要求。这通常不是一次性的任务,而是一个周期性的过程。(a-)人工标注,(b-)半自动标注,(c-)全自动标注。
AD数据标记通常被视为特定于任务/模型。工作流程从仔细准备注释任务和原始数据集的需求开始。然后,下一步是使用人工专家、自动标记算法或端到端大模型生成初始注释结果。
之后,注释质量将由人工专家或自动质量检查算法根据预定义的要求进行检查。如果本轮注释结果未能通过质量检查,则它们将再次发送回标记循环,并重复此注释作业,直到它们满足预定义的要求。最后,可以获得现成的标记AD数据集。
自动标注方法是闭环自动驾驶大数据平台缓解人工标注劳动密集、提高AD数据闭环循环效率、降低相关成本的关键。经典的自动标记任务包括场景分类和理解[Mhammad2022]。
最近,随着BEV感知方法的普及[Li2023b],AD数据标注的行业标准也在不断提高,自动标注任务也变得更加复杂。在当今工业前沿的场景中,3D动态模板自动标注和3D静态场景自动标注是两种常用的高级自动标注任务。
场景分类和理解是自动驾驶大数据平台的基础,系统将视频帧分类为预定义的场景,如驾驶场所(街道、高速公路、城市立交桥、主干道等)和场景天气(晴天、雨天、雪天、雾天、雷雨天等)。
基于CNN的方法通常用于场景分类,包括预训练+微调CNN模型[Liu 2019]、多视图和多层CNN模型[Termen 2023],以及用于改进场景表示的各种基于CNN的模型[Dixit&Vasconcelos2016;Chen2020]。
场景理解[Peng2023;YOLOv82023]超越了单纯的分类。它涉及解释场景中的动态元素,如周围的车辆智体、行人和红绿灯。除了基于图像的场景理解外,基于激光雷达的数据源,如SemanticKITTI[Behley2019],也因其提供的细粒度几何信息而被广泛采用。
三维动态模板自动标注和三维静态场景自动标注的出现是为了满足广泛采用的BEV感知技术的要求。Waymo[Qi2021]提出了一种基于激光雷达点云序列数据的3D自动标记流水线,该流水线使用3D检测器逐帧定位目标。
然后,通过多目标跟踪器链接跨帧的已识别目标边框。为每个目标提取轨迹数据(每帧对应的点云+三维边界框),并使用分而治之的架构进行以目标为中心的自动标记,生成最终细化的三维边框作为标签。
优步提出的Auto4D流水线【Yang 2021】首次探索时空尺度下的AD感知标记。在自动驾驶领域中,空间尺度内的3D目标边框标记以及时间尺度内的1D对应时间戳标记被称为4D标记。Auto4D流水线从连续的激光雷达点云开始,建立初始物体轨迹。
该轨迹由目标大小分支进行细化,该分支使用目标观测来编码和解码目标大小。同时,运动路径分支对路径观测和运动进行编码,允许路径解码器以恒定的目标大小细化轨迹。
3D静态场景自动标记可以被视为高清地图生成,其中车道、道路边界、人行道、红绿灯和驾驶场景中的其他相关元素应该被注释。
在这一主题下,有几项有吸引力的研究工作:基于视觉的方法,如MV Map[Xie 2023],NeMO[Zhu 203];基于激光雷达的方法,如VMA[Chen 2023c];预训练3D场景重建方法,如Occ-BEV[Min2023],OccNet[Tong2023]ADPT[Yuan2023],ALLO【Boulch2023】。
VMA是最近提出的一项用于3D静态场景自动标记的工作。VMA框架利用众包、多行程聚集的激光雷达点云来重建静态场景,并将其分割成单元进行处理。基于MapTR的单元注释器通过查询和解码将原始输入编码为特征图,生成语义类型的点序列。VMA的输出是矢量化地图,将通过闭环注释和人工验证对其进行细化,从而为自动驾驶提供令人满意的高清地图。
本文提供了一个实证研究,更好地说明闭环AD数据平台。整个过程图如图所示。在这种情况下,目标是开发一个基于生成AI和各种基于深度学习算法的AD大数据闭环流水线,从而在自动驾驶算法研发阶段和OTA升级阶段(在现实世界部署后)实现数据闭环。
具体而言,生成人工智能模型用于(1)基于工程师提供的文本提示生成特定场景的高保真度AD数据。(2) AD大数据自动标注,有效准备真值标签。
图中显示了两个闭环。
较大的一步是自动驾驶算法研发阶段,该阶段从生成人工智能模型的合成自动驾驶数据和从真实世界驾驶中获取的数据样本的数据收集开始。
这两种数据源被集成为一个自动驾驶数据集,在云端进行挖掘,以获得有价值的见解。之后,数据集进入了双重标记路径:基于深度学习的自动标记或手动手工标记,确保了标注的速度和精度。
然后,标记的数据被用于在高容量自动驾驶超级计算平台上训练模型。这些模型经过模拟和真实世界的道路测试,以评估其功效,从而发布自动驾驶模型并进行后续部署。
较小的一个是针对真实世界部署后的OTA升级阶段,该阶段涉及大规模云端模拟和真实世界测试,以收集AD算法的不确定/极端情况。所识别的不确定/极端情况用于通知模型测试和更新的下一次迭代。
例如,假设AD算法在隧道驾驶场景中表现不佳。已识别的隧道驾驶极端情况将立即在闭环公布,并在下一次迭代中更新。生成AI模型将以隧道驾驶场景相关描述作为文本提示,生成大规模的隧道驾驶数据样本。
生成的数据和原始数据集将被输入模拟、测试和模型更新。这些过程迭代至关重要,优化模型以适应具有挑战性的环境和新数据,保持自动驾驶功能的高精度和可靠性。
尽管LLM/VLM等基础模型在语言理解和计算机可视化方面取得了成功,但将其直接应用于自动驾驶仍然具有挑战性。
原因有两个方面:一方面,这些LLM/VLM必须能够全面集成和理解多源AD大数据(如FOV图像/视频、激光雷达云点、高清地图、GPS/IMU数据等),这比我们日常生活中看到的图像更难。
另一方面,自动驾驶领域现有的数据规模和质量与其他领域(如金融和医疗)不可比,难以支持更大容量LLM/VLM的训练和优化。由于监管、隐私问题和成本的原因,目前自动驾驶大数据的规模和质量有限。在各方的共同努力下,下一代AD大数据在规模和质量上都会有显著提升。
VLM/LLM引导的用户-车辆交互是一个非常有前景的应用案例。基于该应用程序可以收集用户特定的行为大数据。然而,VLM/LLM在车端的设备将要求高标准的硬件计算资源,并且交互式应用程序预计具有低延迟。因此,未来可能会有一些轻量级的大型自动驾驶模型,或者LLM/VLM的压缩技术将得到进一步研究。
随着AD技术的巨大发展,智能算法和生成工智能模型(如LLM、VLM)将在执行越来越复杂的驾驶决策和任务时“充当一个驾驶员”。在这个领域下,一个自然的问题出现了:人类能信任自动驾驶模型吗?
值得信赖的关键在于自动驾驶模型的可解释性。应该能够向人类驾驶员解释做出决定的原因,而不仅仅是执行驾驶动作。LLM/VLM有望通过实时提供高级推理和可理解的解释来增强可信赖的自动驾驶。
注:新意不足。
关注谈思汽车公众号,后台回复关键词“2435”,获取论文PDF下载链接。
内容来源:
https://zhuanlan.zhihu.com/p/680327884
- THE END -
精品活动推荐
因文章部分文字及图片涉及到引用,如有侵权,请及时联系17316577586,我们将删除内容以保证您的权益。