以数据为中心的自动驾驶进化:大数据系统、数据挖掘和闭环技术综述

谈思汽车 2024-03-05 12:03

 智能汽车安全新媒体 

24年1月论文“Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies”,来自悉尼大学、Data61公司、比亚迪公司、圣母院(Notre Dame)大学、南方科技大学(文末附论文PDF下载方式)

下一代自动驾驶(AD)技术的愿望依赖于智能感知、预测、规划和低级控制之间的集成和交互。自动驾驶算法性能的上限一直存在巨大的瓶颈,学术界和业界一致认为,克服瓶颈的关键在于以数据为中心的自动驾驶技术。

自动驾驶仿真、闭环模型训练和自动驾驶大数据引擎的最新进展已经获得了一些宝贵的经验。然而,对于如何构建高效数据为中心的自动驾驶技术来实现其算法的自我进化和更好的大数据积累,还是缺乏系统的知识和深刻的理解。

本文密切关注数据驱动自动驾驶技术,重点是自动驾驶数据集的全面分类,包含里程碑、关键特征、数据采集设置等特征。此外,从行业前沿对现有的基准闭环AD大数据流水线进行了系统的回顾,包括闭环框架的过程、关键技术和实证研究。最后,讨论了未来的发展方向、潜在应用、局限性和关注点,引起学术界和工业界的努力,促进无人驾驶的进一步发展。

文章架构如图所示:

最近[Ma2023;Li2023b]对AD感知算法进行了系统综述,[Huang2022]和[Ma2022]分别对AD预测/规划算法进行了全面调查。从数据驱动的自动驾驶角度,[Li2023a;Liu 2024]总结了主流自动驾驶数据集的发展情况。

对于闭环技术,[Zhang2022b]研究了如何将其用于基于强化学习(RL)方法的智能车辆规划。如图以里程碑为特征对开源自动驾驶数据集发展进行全面说明。强调传感器模态、合适的任务、数据集的收集点和相关挑战。

早期阶段,即2012年开始的第一代,由KITTI[Geiger2012]和Cityscapes[Cords2016]牵头,为感知任务提供高分辨率图像,是视觉算法基准进度的基础。推进到第二代,NuScenes[Cesar 2020]、Waymo[Sun2020]、Argoverse 1[Chang2019]等数据集引入了一种多传感器方法,将车载摄像头、高清地图(HD Map)、激光雷达、雷达、GPS、IMU、轨迹、周围物体的数据集成在一起,这对于全面的驾驶环境建模和决策过程至关重要。

最近,NuPlan[Caesar2021]、Argoverse 2[Wilson2021]和Lyft L5[Houston2021]显著提高了冲击门槛,提供了前所未有的数据规模,并培育了一个有利于尖端研究的生态系统。这些数据集以其庞大的规模和多模态传感器集成为特点,在开发感知、预测和规划任务的算法方面发挥了重要作用,为最先进的端到端或混合自动驾驶模型铺平了道路。

2024年迎来第三代自动驾驶数据集。在VLM[Wen2023;Cui2024]、LLM[Qian2021;Wu2023a]和其他第三代人工智能技术的支持下,第三代数据集强调了行业致力于应对自动驾驶日益复杂的挑战,如数据长尾分布问题、分布外OOD检测、极端案例分析等。

自动驾驶系统正在进步,但它们仍然缺乏在现实世界中稳健运行所必需的关键能力,例如准确处理未见的场景或不熟悉的目标,与人类驾驶员互动,为决策过程提供解释。

作为探索第三代AD大数据的先驱,DriveLM旨在通过将VLM、LLM和图可视化问答(GVQA)技术整合到AD堆栈中来应对这些挑战。DriveLM利用这些优势来促进规划的泛化,并通过能够理解和生成自然语言描述的模型来促进人机交互。

这种与人类通信的兼容性是与当前依赖纯端到端可微分架构的方法的关键区别。DriveLM在AD文本下的思维链GVQA设计方面,特别创新。GVQA包括制定Pi-3推理——由一系列问答对组成——以模拟驾驶中的人类推理过程。

除此之外,DirveLM还引入了专门的指标,用于更合乎逻辑和合理的方式评估绩效。

最近,世界模型[Ha&Schmidhuber2018;Lin2020]以其更先进的内在概念和更具前景的性能,已被用于高保真度AD数据生成。

世界模型可以被定义为一个人工智能系统,它构建其感知的环境的内部表示,并使用学习到的表示来模拟环境中的数据或事件。一般世界模型的目标是表示和模拟各种情况和互动,就像成熟的人类在现实世界中遇到的一样。

在自动驾驶领域,GAIA-1[Hu2023]和DriveDreamer[Wang2023]是基于世界模型的数据生成代表作

GAIA-1是一个生成型人工智能模型,通过将原始图像/视频以及文本和动作提示作为输入,实现图像/视频到图像/视频的生成。GAIA-1的输入模态被编码成统一的token序列。这些tokens由世界模型内的自回归transformer处理,以预测后续的图像tokens。然后,视频解码器将这些tokens重建为具有增强的时间分辨率的连贯视频输出,从而实现动态和上下文丰富的视觉内容生成。

DriveDreamer在其架构中创新地采用了扩散模型,专注于捕捉现实世界驾驶环境的复杂性。它的两阶段训练流水线首先使模型能够学习结构化的交通约束,然后预测未来的状态,确保为自动驾驶应用程序量身定制的强大的环境理解。

在数据驱动的自动驾驶领域有一些先驱的工业实践[Farabet&Koumchatzky2020;El-luswamy2023;Gao2023]。

其中,特斯拉是一个代表,拥有其长期开发的车队学习流水线[M,2022]和自动驾驶系统。每当AutoPilot检测到极端案例时,都会有一个案例的快速“快照”记录,其中包括1分钟内所有主要传感器的数据。

在收到快照记录后,基于深度学习(DL)的模型和/或人类专家将对其进行分析,提取场景的特征,然后在大量车辆上打开“影子模式”[Silva2022],自动查找和记录在特征维度上与之前的极端情况高度相似的驾驶场景数据。新增的海量数据将反馈给AD算法进行模型训练和验证,有利于算法的升级和改进。

如下介绍两个先驱数据驱动闭环自动驾驶流水线的工作流程图:NVIDIA的MagLev AV平台(上)和特斯拉自动驾驶数据平台(下)。

NVIDIA MagLev AV平台[Farabet&Koumchatzky2020]遵循“收集→ 选择→ 标签→ 训练→ 测试”作为程序,它是一个可复制的工作流程,可以实现主动学习,并在循环中进行智能标注。

MagLev主要包括两条闭环流水线。第一个循环是以自动驾驶数据为中心,从数据摄入和智能选择开始,通过标记和标注,然后是模型搜索和训练。然后对经过训练的模型进行评估、调试,并最终部署到现实世界中。

第二个闭环是平台的基础设施支持系统,包括数据中心骨干和硬件基础设施。此循环包括安全的数据处理、可扩展的DNN和系统KPI、用于跟踪和调试的仪表板。它支持自动驾驶车开发的全周期,确保在开发过程中不断改进和整合真实世界的数据和模拟反馈。

特斯拉自动驾驶数据平台[Eluswamy2023]是另一个具有代表性的AD平台,它强调用大数据驱动的闭环流水线来显著提高自动驾驶模型的性能。

流水线从源数据收集开始,通常来自特斯拉的车队学习、事件触发车端数据收集和影子模式。收集到的数据将由数据平台算法或人类专家进行存储、管理和检查。

无论何时发现极端案例/不确定性,数据引擎都将从现有数据库中检索并匹配与极端案例/不确定性事件高度相似的数据样本。同时,将开发单元测试,复制场景并严格测试系统的响应。

之后,检索的数据样本将由自动标注算法或人类专家进行标记。然后,标记良好的数据将反馈给AD数据库,数据库将更新生成用于AD感知/预测/规划/控制模型新版本的训练数据集。经过模型训练、验证、仿真和真实世界测试,具有更高性能的新AD模型将发布和部署。

如下是主流AD数据标注流水线的详细工作流程。AD数据标签通常是特定于任务/模型的,具有预定义的要求。这通常不是一次性的任务,而是一个周期性的过程。(a-)人工标注,(b-)半自动标注,(c-)全自动标注。

AD数据标记通常被视为特定于任务/模型。工作流程从仔细准备注释任务和原始数据集的需求开始。然后,下一步是使用人工专家、自动标记算法或端到端大模型生成初始注释结果。

之后,注释质量将由人工专家或自动质量检查算法根据预定义的要求进行检查。如果本轮注释结果未能通过质量检查,则它们将再次发送回标记循环,并重复此注释作业,直到它们满足预定义的要求。最后,可以获得现成的标记AD数据集。

自动标注方法是闭环自动驾驶大数据平台缓解人工标注劳动密集、提高AD数据闭环循环效率、降低相关成本的关键。经典的自动标记任务包括场景分类和理解[Mhammad2022]。

最近,随着BEV感知方法的普及[Li2023b],AD数据标注的行业标准也在不断提高,自动标注任务也变得更加复杂。在当今工业前沿的场景中,3D动态模板自动标注和3D静态场景自动标注是两种常用的高级自动标注任务。

场景分类和理解是自动驾驶大数据平台的基础,系统将视频帧分类为预定义的场景,如驾驶场所(街道、高速公路、城市立交桥、主干道等)和场景天气(晴天、雨天、雪天、雾天、雷雨天等)。

基于CNN的方法通常用于场景分类,包括预训练+微调CNN模型[Liu 2019]、多视图和多层CNN模型[Termen 2023],以及用于改进场景表示的各种基于CNN的模型[Dixit&Vasconcelos2016;Chen2020]。

场景理解[Peng2023;YOLOv82023]超越了单纯的分类。它涉及解释场景中的动态元素,如周围的车辆智体、行人和红绿灯。除了基于图像的场景理解外,基于激光雷达的数据源,如SemanticKITTI[Behley2019],也因其提供的细粒度几何信息而被广泛采用。

三维动态模板自动标注和三维静态场景自动标注的出现是为了满足广泛采用的BEV感知技术的要求。Waymo[Qi2021]提出了一种基于激光雷达点云序列数据的3D自动标记流水线,该流水线使用3D检测器逐帧定位目标。

然后,通过多目标跟踪器链接跨帧的已识别目标边框。为每个目标提取轨迹数据(每帧对应的点云+三维边界框),并使用分而治之的架构进行以目标为中心的自动标记,生成最终细化的三维边框作为标签。

优步提出的Auto4D流水线【Yang 2021】首次探索时空尺度下的AD感知标记。在自动驾驶领域中,空间尺度内的3D目标边框标记以及时间尺度内的1D对应时间戳标记被称为4D标记。Auto4D流水线从连续的激光雷达点云开始,建立初始物体轨迹。

该轨迹由目标大小分支进行细化,该分支使用目标观测来编码和解码目标大小。同时,运动路径分支对路径观测和运动进行编码,允许路径解码器以恒定的目标大小细化轨迹。

3D静态场景自动标记可以被视为高清地图生成,其中车道、道路边界、人行道、红绿灯和驾驶场景中的其他相关元素应该被注释。

在这一主题下,有几项有吸引力的研究工作:基于视觉的方法,如MV Map[Xie 2023],NeMO[Zhu 203];基于激光雷达的方法,如VMA[Chen 2023c];预训练3D场景重建方法,如Occ-BEV[Min2023],OccNet[Tong2023]ADPT[Yuan2023],ALLO【Boulch2023】。

VMA是最近提出的一项用于3D静态场景自动标记的工作。VMA框架利用众包、多行程聚集的激光雷达点云来重建静态场景,并将其分割成单元进行处理。基于MapTR的单元注释器通过查询和解码将原始输入编码为特征图,生成语义类型的点序列。VMA的输出是矢量化地图,将通过闭环注释和人工验证对其进行细化,从而为自动驾驶提供令人满意的高清地图。

本文提供了一个实证研究,更好地说明闭环AD数据平台。整个过程图如图所示。在这种情况下,目标是开发一个基于生成AI和各种基于深度学习算法的AD大数据闭环流水线,从而在自动驾驶算法研发阶段和OTA升级阶段(在现实世界部署后)实现数据闭环。

具体而言,生成人工智能模型用于(1)基于工程师提供的文本提示生成特定场景的高保真度AD数据。(2) AD大数据自动标注,有效准备真值标签。

图中显示了两个闭环。

较大的一步是自动驾驶算法研发阶段,该阶段从生成人工智能模型的合成自动驾驶数据和从真实世界驾驶中获取的数据样本的数据收集开始。

这两种数据源被集成为一个自动驾驶数据集,在云端进行挖掘,以获得有价值的见解。之后,数据集进入了双重标记路径:基于深度学习的自动标记或手动手工标记,确保了标注的速度和精度。

然后,标记的数据被用于在高容量自动驾驶超级计算平台上训练模型。这些模型经过模拟和真实世界的道路测试,以评估其功效,从而发布自动驾驶模型并进行后续部署。

较小的一个是针对真实世界部署后的OTA升级阶段,该阶段涉及大规模云端模拟和真实世界测试,以收集AD算法的不确定/极端情况。所识别的不确定/极端情况用于通知模型测试和更新的下一次迭代。

例如,假设AD算法在隧道驾驶场景中表现不佳。已识别的隧道驾驶极端情况将立即在闭环公布,并在下一次迭代中更新。生成AI模型将以隧道驾驶场景相关描述作为文本提示,生成大规模的隧道驾驶数据样本。

生成的数据和原始数据集将被输入模拟、测试和模型更新。这些过程迭代至关重要,优化模型以适应具有挑战性的环境和新数据,保持自动驾驶功能的高精度和可靠性。

尽管LLM/VLM等基础模型在语言理解和计算机可视化方面取得了成功,但将其直接应用于自动驾驶仍然具有挑战性。

原因有两个方面:一方面,这些LLM/VLM必须能够全面集成和理解多源AD大数据(如FOV图像/视频、激光雷达云点、高清地图、GPS/IMU数据等),这比我们日常生活中看到的图像更难。

另一方面,自动驾驶领域现有的数据规模和质量与其他领域(如金融和医疗)不可比,难以支持更大容量LLM/VLM的训练和优化。由于监管、隐私问题和成本的原因,目前自动驾驶大数据的规模和质量有限。在各方的共同努力下,下一代AD大数据在规模和质量上都会有显著提升。

VLM/LLM引导的用户-车辆交互是一个非常有前景的应用案例。基于该应用程序可以收集用户特定的行为大数据。然而,VLM/LLM在车端的设备将要求高标准的硬件计算资源,并且交互式应用程序预计具有低延迟。因此,未来可能会有一些轻量级的大型自动驾驶模型,或者LLM/VLM的压缩技术将得到进一步研究。

随着AD技术的巨大发展,智能算法和生成工智能模型(如LLM、VLM)将在执行越来越复杂的驾驶决策和任务时“充当一个驾驶员”。在这个领域下,一个自然的问题出现了:人类能信任自动驾驶模型吗?

值得信赖的关键在于自动驾驶模型的可解释性。应该能够向人类驾驶员解释做出决定的原因,而不仅仅是执行驾驶动作。LLM/VLM有望通过实时提供高级推理和可理解的解释来增强可信赖的自动驾驶。

注:新意不足。

关注谈思汽车公众号,后台回复关键词“2435”,获取论文PDF下载链接。

内容来源:

https://zhuanlan.zhihu.com/p/680327884

-  THE END  -


 精品活动推荐 


因文章部分文字及图片涉及到引用,如有侵权,请及时联系17316577586,我们将删除内容以保证您的权益。


谈思汽车 智能汽车安全新媒体
评论
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,与汽车技术领先者法雷奥合作,采用创新的开放系统协议(OSP)技术,旨在改变汽车内饰照明方式,革新汽车行业座舱照明理念。结合艾迈斯欧司朗开创性的OSIRE® E3731i智能LED和法雷奥的动态环境照明系统,两家公司将为车辆内饰设计和功能设立一套全新标准。汽车内饰照明的作用日益凸显,座舱设计的主流趋势应满足终端用户的需求:即易于使用、个性化,并能提供符合用户生活方式的清晰信息。因此,动态环境照明带来了众多新机遇。智能LED的应用已
    艾迈斯欧司朗 2025-01-15 19:00 71浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 124浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 58浏览
  • 晶台光耦KL817和KL3053在小家电产品(如微波炉等)辅助电源中的广泛应用。具备小功率、高性能、高度集成以及低待机功耗的特点,同时支持宽输入电压范围。▲光耦在实物应用中的产品图其一次侧集成了交流电压过零检测与信号输出功能,该功能产生的过零信号可用于精确控制继电器、可控硅等器件的过零开关动作,从而有效减小开关应力,显著提升器件的使用寿命。通过高度的集成化和先进的控制技术,该电源大幅减少了所需的外围器件数量,不仅降低了系统成本和体积,还进一步增强了整体的可靠性。▲电路示意图该电路的过零检测信号由
    晶台光耦 2025-01-16 10:12 84浏览
  • 故障现象 一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断接车后试车,发动机怠速轻微抖动,发动机故障灯长亮。用故障检测仪检测,发现发动机控制单元(NCM)中存储有故障代码“P0300 多缸失火”“P0309 气缸9失火”“P0307 气缸7失火”,初步判断发动机存在失火故障。考虑到该车使用年数较长,决定先使用虹科Pico汽车示波器进行相对压缩测试,以
    虹科Pico汽车示波器 2025-01-15 17:30 85浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 170浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 79浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 63浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 122浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 128浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 66浏览
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 133浏览
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 117浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦