以数据为中心的自动驾驶进化:大数据系统、数据挖掘和闭环技术综述

谈思汽车 2024-03-05 12:03

 智能汽车安全新媒体 

24年1月论文“Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies”,来自悉尼大学、Data61公司、比亚迪公司、圣母院(Notre Dame)大学、南方科技大学(文末附论文PDF下载方式)

下一代自动驾驶(AD)技术的愿望依赖于智能感知、预测、规划和低级控制之间的集成和交互。自动驾驶算法性能的上限一直存在巨大的瓶颈,学术界和业界一致认为,克服瓶颈的关键在于以数据为中心的自动驾驶技术。

自动驾驶仿真、闭环模型训练和自动驾驶大数据引擎的最新进展已经获得了一些宝贵的经验。然而,对于如何构建高效数据为中心的自动驾驶技术来实现其算法的自我进化和更好的大数据积累,还是缺乏系统的知识和深刻的理解。

本文密切关注数据驱动自动驾驶技术,重点是自动驾驶数据集的全面分类,包含里程碑、关键特征、数据采集设置等特征。此外,从行业前沿对现有的基准闭环AD大数据流水线进行了系统的回顾,包括闭环框架的过程、关键技术和实证研究。最后,讨论了未来的发展方向、潜在应用、局限性和关注点,引起学术界和工业界的努力,促进无人驾驶的进一步发展。

文章架构如图所示:

最近[Ma2023;Li2023b]对AD感知算法进行了系统综述,[Huang2022]和[Ma2022]分别对AD预测/规划算法进行了全面调查。从数据驱动的自动驾驶角度,[Li2023a;Liu 2024]总结了主流自动驾驶数据集的发展情况。

对于闭环技术,[Zhang2022b]研究了如何将其用于基于强化学习(RL)方法的智能车辆规划。如图以里程碑为特征对开源自动驾驶数据集发展进行全面说明。强调传感器模态、合适的任务、数据集的收集点和相关挑战。

早期阶段,即2012年开始的第一代,由KITTI[Geiger2012]和Cityscapes[Cords2016]牵头,为感知任务提供高分辨率图像,是视觉算法基准进度的基础。推进到第二代,NuScenes[Cesar 2020]、Waymo[Sun2020]、Argoverse 1[Chang2019]等数据集引入了一种多传感器方法,将车载摄像头、高清地图(HD Map)、激光雷达、雷达、GPS、IMU、轨迹、周围物体的数据集成在一起,这对于全面的驾驶环境建模和决策过程至关重要。

最近,NuPlan[Caesar2021]、Argoverse 2[Wilson2021]和Lyft L5[Houston2021]显著提高了冲击门槛,提供了前所未有的数据规模,并培育了一个有利于尖端研究的生态系统。这些数据集以其庞大的规模和多模态传感器集成为特点,在开发感知、预测和规划任务的算法方面发挥了重要作用,为最先进的端到端或混合自动驾驶模型铺平了道路。

2024年迎来第三代自动驾驶数据集。在VLM[Wen2023;Cui2024]、LLM[Qian2021;Wu2023a]和其他第三代人工智能技术的支持下,第三代数据集强调了行业致力于应对自动驾驶日益复杂的挑战,如数据长尾分布问题、分布外OOD检测、极端案例分析等。

自动驾驶系统正在进步,但它们仍然缺乏在现实世界中稳健运行所必需的关键能力,例如准确处理未见的场景或不熟悉的目标,与人类驾驶员互动,为决策过程提供解释。

作为探索第三代AD大数据的先驱,DriveLM旨在通过将VLM、LLM和图可视化问答(GVQA)技术整合到AD堆栈中来应对这些挑战。DriveLM利用这些优势来促进规划的泛化,并通过能够理解和生成自然语言描述的模型来促进人机交互。

这种与人类通信的兼容性是与当前依赖纯端到端可微分架构的方法的关键区别。DriveLM在AD文本下的思维链GVQA设计方面,特别创新。GVQA包括制定Pi-3推理——由一系列问答对组成——以模拟驾驶中的人类推理过程。

除此之外,DirveLM还引入了专门的指标,用于更合乎逻辑和合理的方式评估绩效。

最近,世界模型[Ha&Schmidhuber2018;Lin2020]以其更先进的内在概念和更具前景的性能,已被用于高保真度AD数据生成。

世界模型可以被定义为一个人工智能系统,它构建其感知的环境的内部表示,并使用学习到的表示来模拟环境中的数据或事件。一般世界模型的目标是表示和模拟各种情况和互动,就像成熟的人类在现实世界中遇到的一样。

在自动驾驶领域,GAIA-1[Hu2023]和DriveDreamer[Wang2023]是基于世界模型的数据生成代表作

GAIA-1是一个生成型人工智能模型,通过将原始图像/视频以及文本和动作提示作为输入,实现图像/视频到图像/视频的生成。GAIA-1的输入模态被编码成统一的token序列。这些tokens由世界模型内的自回归transformer处理,以预测后续的图像tokens。然后,视频解码器将这些tokens重建为具有增强的时间分辨率的连贯视频输出,从而实现动态和上下文丰富的视觉内容生成。

DriveDreamer在其架构中创新地采用了扩散模型,专注于捕捉现实世界驾驶环境的复杂性。它的两阶段训练流水线首先使模型能够学习结构化的交通约束,然后预测未来的状态,确保为自动驾驶应用程序量身定制的强大的环境理解。

在数据驱动的自动驾驶领域有一些先驱的工业实践[Farabet&Koumchatzky2020;El-luswamy2023;Gao2023]。

其中,特斯拉是一个代表,拥有其长期开发的车队学习流水线[M,2022]和自动驾驶系统。每当AutoPilot检测到极端案例时,都会有一个案例的快速“快照”记录,其中包括1分钟内所有主要传感器的数据。

在收到快照记录后,基于深度学习(DL)的模型和/或人类专家将对其进行分析,提取场景的特征,然后在大量车辆上打开“影子模式”[Silva2022],自动查找和记录在特征维度上与之前的极端情况高度相似的驾驶场景数据。新增的海量数据将反馈给AD算法进行模型训练和验证,有利于算法的升级和改进。

如下介绍两个先驱数据驱动闭环自动驾驶流水线的工作流程图:NVIDIA的MagLev AV平台(上)和特斯拉自动驾驶数据平台(下)。

NVIDIA MagLev AV平台[Farabet&Koumchatzky2020]遵循“收集→ 选择→ 标签→ 训练→ 测试”作为程序,它是一个可复制的工作流程,可以实现主动学习,并在循环中进行智能标注。

MagLev主要包括两条闭环流水线。第一个循环是以自动驾驶数据为中心,从数据摄入和智能选择开始,通过标记和标注,然后是模型搜索和训练。然后对经过训练的模型进行评估、调试,并最终部署到现实世界中。

第二个闭环是平台的基础设施支持系统,包括数据中心骨干和硬件基础设施。此循环包括安全的数据处理、可扩展的DNN和系统KPI、用于跟踪和调试的仪表板。它支持自动驾驶车开发的全周期,确保在开发过程中不断改进和整合真实世界的数据和模拟反馈。

特斯拉自动驾驶数据平台[Eluswamy2023]是另一个具有代表性的AD平台,它强调用大数据驱动的闭环流水线来显著提高自动驾驶模型的性能。

流水线从源数据收集开始,通常来自特斯拉的车队学习、事件触发车端数据收集和影子模式。收集到的数据将由数据平台算法或人类专家进行存储、管理和检查。

无论何时发现极端案例/不确定性,数据引擎都将从现有数据库中检索并匹配与极端案例/不确定性事件高度相似的数据样本。同时,将开发单元测试,复制场景并严格测试系统的响应。

之后,检索的数据样本将由自动标注算法或人类专家进行标记。然后,标记良好的数据将反馈给AD数据库,数据库将更新生成用于AD感知/预测/规划/控制模型新版本的训练数据集。经过模型训练、验证、仿真和真实世界测试,具有更高性能的新AD模型将发布和部署。

如下是主流AD数据标注流水线的详细工作流程。AD数据标签通常是特定于任务/模型的,具有预定义的要求。这通常不是一次性的任务,而是一个周期性的过程。(a-)人工标注,(b-)半自动标注,(c-)全自动标注。

AD数据标记通常被视为特定于任务/模型。工作流程从仔细准备注释任务和原始数据集的需求开始。然后,下一步是使用人工专家、自动标记算法或端到端大模型生成初始注释结果。

之后,注释质量将由人工专家或自动质量检查算法根据预定义的要求进行检查。如果本轮注释结果未能通过质量检查,则它们将再次发送回标记循环,并重复此注释作业,直到它们满足预定义的要求。最后,可以获得现成的标记AD数据集。

自动标注方法是闭环自动驾驶大数据平台缓解人工标注劳动密集、提高AD数据闭环循环效率、降低相关成本的关键。经典的自动标记任务包括场景分类和理解[Mhammad2022]。

最近,随着BEV感知方法的普及[Li2023b],AD数据标注的行业标准也在不断提高,自动标注任务也变得更加复杂。在当今工业前沿的场景中,3D动态模板自动标注和3D静态场景自动标注是两种常用的高级自动标注任务。

场景分类和理解是自动驾驶大数据平台的基础,系统将视频帧分类为预定义的场景,如驾驶场所(街道、高速公路、城市立交桥、主干道等)和场景天气(晴天、雨天、雪天、雾天、雷雨天等)。

基于CNN的方法通常用于场景分类,包括预训练+微调CNN模型[Liu 2019]、多视图和多层CNN模型[Termen 2023],以及用于改进场景表示的各种基于CNN的模型[Dixit&Vasconcelos2016;Chen2020]。

场景理解[Peng2023;YOLOv82023]超越了单纯的分类。它涉及解释场景中的动态元素,如周围的车辆智体、行人和红绿灯。除了基于图像的场景理解外,基于激光雷达的数据源,如SemanticKITTI[Behley2019],也因其提供的细粒度几何信息而被广泛采用。

三维动态模板自动标注和三维静态场景自动标注的出现是为了满足广泛采用的BEV感知技术的要求。Waymo[Qi2021]提出了一种基于激光雷达点云序列数据的3D自动标记流水线,该流水线使用3D检测器逐帧定位目标。

然后,通过多目标跟踪器链接跨帧的已识别目标边框。为每个目标提取轨迹数据(每帧对应的点云+三维边界框),并使用分而治之的架构进行以目标为中心的自动标记,生成最终细化的三维边框作为标签。

优步提出的Auto4D流水线【Yang 2021】首次探索时空尺度下的AD感知标记。在自动驾驶领域中,空间尺度内的3D目标边框标记以及时间尺度内的1D对应时间戳标记被称为4D标记。Auto4D流水线从连续的激光雷达点云开始,建立初始物体轨迹。

该轨迹由目标大小分支进行细化,该分支使用目标观测来编码和解码目标大小。同时,运动路径分支对路径观测和运动进行编码,允许路径解码器以恒定的目标大小细化轨迹。

3D静态场景自动标记可以被视为高清地图生成,其中车道、道路边界、人行道、红绿灯和驾驶场景中的其他相关元素应该被注释。

在这一主题下,有几项有吸引力的研究工作:基于视觉的方法,如MV Map[Xie 2023],NeMO[Zhu 203];基于激光雷达的方法,如VMA[Chen 2023c];预训练3D场景重建方法,如Occ-BEV[Min2023],OccNet[Tong2023]ADPT[Yuan2023],ALLO【Boulch2023】。

VMA是最近提出的一项用于3D静态场景自动标记的工作。VMA框架利用众包、多行程聚集的激光雷达点云来重建静态场景,并将其分割成单元进行处理。基于MapTR的单元注释器通过查询和解码将原始输入编码为特征图,生成语义类型的点序列。VMA的输出是矢量化地图,将通过闭环注释和人工验证对其进行细化,从而为自动驾驶提供令人满意的高清地图。

本文提供了一个实证研究,更好地说明闭环AD数据平台。整个过程图如图所示。在这种情况下,目标是开发一个基于生成AI和各种基于深度学习算法的AD大数据闭环流水线,从而在自动驾驶算法研发阶段和OTA升级阶段(在现实世界部署后)实现数据闭环。

具体而言,生成人工智能模型用于(1)基于工程师提供的文本提示生成特定场景的高保真度AD数据。(2) AD大数据自动标注,有效准备真值标签。

图中显示了两个闭环。

较大的一步是自动驾驶算法研发阶段,该阶段从生成人工智能模型的合成自动驾驶数据和从真实世界驾驶中获取的数据样本的数据收集开始。

这两种数据源被集成为一个自动驾驶数据集,在云端进行挖掘,以获得有价值的见解。之后,数据集进入了双重标记路径:基于深度学习的自动标记或手动手工标记,确保了标注的速度和精度。

然后,标记的数据被用于在高容量自动驾驶超级计算平台上训练模型。这些模型经过模拟和真实世界的道路测试,以评估其功效,从而发布自动驾驶模型并进行后续部署。

较小的一个是针对真实世界部署后的OTA升级阶段,该阶段涉及大规模云端模拟和真实世界测试,以收集AD算法的不确定/极端情况。所识别的不确定/极端情况用于通知模型测试和更新的下一次迭代。

例如,假设AD算法在隧道驾驶场景中表现不佳。已识别的隧道驾驶极端情况将立即在闭环公布,并在下一次迭代中更新。生成AI模型将以隧道驾驶场景相关描述作为文本提示,生成大规模的隧道驾驶数据样本。

生成的数据和原始数据集将被输入模拟、测试和模型更新。这些过程迭代至关重要,优化模型以适应具有挑战性的环境和新数据,保持自动驾驶功能的高精度和可靠性。

尽管LLM/VLM等基础模型在语言理解和计算机可视化方面取得了成功,但将其直接应用于自动驾驶仍然具有挑战性。

原因有两个方面:一方面,这些LLM/VLM必须能够全面集成和理解多源AD大数据(如FOV图像/视频、激光雷达云点、高清地图、GPS/IMU数据等),这比我们日常生活中看到的图像更难。

另一方面,自动驾驶领域现有的数据规模和质量与其他领域(如金融和医疗)不可比,难以支持更大容量LLM/VLM的训练和优化。由于监管、隐私问题和成本的原因,目前自动驾驶大数据的规模和质量有限。在各方的共同努力下,下一代AD大数据在规模和质量上都会有显著提升。

VLM/LLM引导的用户-车辆交互是一个非常有前景的应用案例。基于该应用程序可以收集用户特定的行为大数据。然而,VLM/LLM在车端的设备将要求高标准的硬件计算资源,并且交互式应用程序预计具有低延迟。因此,未来可能会有一些轻量级的大型自动驾驶模型,或者LLM/VLM的压缩技术将得到进一步研究。

随着AD技术的巨大发展,智能算法和生成工智能模型(如LLM、VLM)将在执行越来越复杂的驾驶决策和任务时“充当一个驾驶员”。在这个领域下,一个自然的问题出现了:人类能信任自动驾驶模型吗?

值得信赖的关键在于自动驾驶模型的可解释性。应该能够向人类驾驶员解释做出决定的原因,而不仅仅是执行驾驶动作。LLM/VLM有望通过实时提供高级推理和可理解的解释来增强可信赖的自动驾驶。

注:新意不足。

关注谈思汽车公众号,后台回复关键词“2435”,获取论文PDF下载链接。

内容来源:

https://zhuanlan.zhihu.com/p/680327884

-  THE END  -


 精品活动推荐 


因文章部分文字及图片涉及到引用,如有侵权,请及时联系17316577586,我们将删除内容以保证您的权益。


谈思汽车 智能汽车安全新媒体
评论 (0)
  • 文/Leon编辑/cc孙聪颖‍《中国家族企业传承研究报告》显示,超四成“企二代” 明确表达接班意愿,展现出对家族企业延续发展的主动担当。中国研究数据服务平台(CNRDS)提供的精准数据进一步佐证:截至 2022 年,已有至少 280 家上市家族企业完成权杖交接,其中八成新任掌门人为创始人之子,凸显家族企业代际传承中 “子承父业” 的主流模式。然而,对于“企二代” 而言,接棒掌舵绝非易事。在瞬息万变的商业环境中,他们既要在白热化的市场竞争中开拓创新、引领企业突破发展瓶颈,又需应对来自父辈管理层的经
    华尔街科技眼 2025-05-06 18:17 28浏览
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 187浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 86浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 401浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 304浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 328浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 478浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 581浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 443浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 383浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 92浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 196浏览
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 204浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦