一文带你了解端到端自动驾驶技术与挑战

智驾最前沿 2024-08-11 08:45 1201浏览 0评论 1点赞

技术前沿：ADMT4000多圈传感器技术剖析与应用实践 万亿市场风口怎么抓？5场研讨会解锁3D IC设计“通关秘籍”

--关注、星标「智驾最前沿」、回复“40429”--

↓↓免费领取：《汽车驾驶自动化分级》（GB/T 40429-2021）↓↓

后台回复：原稿5，即可获取：本文英文版pdf文件

自动驾驶社区见证了采用端到端算法框架的方法的快速增长，这种框架利用原始传感器输入生成车辆轨迹规划，而不是专注于单独的任务如检测和运动预测。与模块化流水线相比，端到端系统受益于感知和规划的联合特征优化。由于大规模数据集的可用性、闭环评估以及自动驾驶算法在复杂场景中有效表现的日益需求，该领域得到了蓬勃发展。

在这篇综述中，我们对270多篇论文进行了全面分析，涵盖了端到端自动驾驶的动机、路线图、方法论、挑战和未来趋势。深入探讨了几个关键挑战，包括多模态、可解释性、因果混淆、稳健性和世界模型等。此还此外讨论了基础模型和视觉预训练的当前进展，以及如何将这些技术整合到端到端驾驶框架中，作者维护了一个活跃的资源库，其中包含最新文献和开源项目，地址为：https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving。

主要贡献

传统自动驾驶系统采用模块化设计，每个功能模块（如感知、预测、规划）独立开发并集成。规划模块通过复杂的基于规则的设计生成转向和加速输出，但在处理多变的道路情况时效果不佳。因此，趋势是利用大规模数据和基于学习的规划方法。端到端自动驾驶系统使用原始传感器数据生成计划和控制动作，进行联合和全局优化。

图1：综述概览。(a) 将端到端自动驾驶定义为一种基于学习的算法框架，以原始传感器输入和规划/控制输出为基础。作者深入研究了270多篇论文，并将其分类为模仿学习（IL）和强化学习（RL）。(b) 基准测试。将流行的基准测试分为闭环和开环评估，分别介绍了闭环模拟的各个方面以及开环评估的局限性。(c) 挑战。这是我们工作的主要部分，作者列出了多个主题的关键挑战，并深入分析了这些问题的重要性，同时也讨论了这些挑战的潜在解决方案。(e) 未来趋势。讨论了端到端范式如何通过基础模型和视觉预训练等快速发展的技术获益。

图2展示了端到端自动驾驶关键成就的时间轴，每一部分都标志着重要的范式转变或性能提升。2021年左右发生了重要的转折点，随着在合理计算预算内可用的多样传感器配置，研究重点转向了结合更多模态和先进架构，如Transformers以捕捉全局上下文和代表性特征。

图2：端到端自动驾驶路线图

我们按时间顺序展示了关键里程碑，将相似的工作归类在同一主题下。

总结来说，本综述有三个主要贡献：

(a) 首次对端到端自动驾驶进行了全面分析，包括高层次的动机、方法论、基准测试等。我们提倡设计整体算法框架的理念，而不是优化单一模块，最终目标是实现安全和舒适的驾驶。

(b) 广泛调查了当前方法面临的关键挑战，在调查的250多篇论文中，总结了主要方面并提供了深入分析，包括泛化性、语言引导学习、因果混淆等话题。

内容概述

端到端的三种流行范式。行为克隆（BC）：展示行为克隆如何基于监督学习原则训练模型，以模仿专家的行动。逆优化控制（IOC）：说明逆优化控制或逆强化学习如何从专家示范中学习奖励函数，以指导决策过程。在线强化学习：展示强化学习方法如何通过与环境交互迭代学习最优策略，可能使用策略梯度或Q学习等技术。每种范式通常会伴随解释性的注解或标题，描述它们在端到端自动驾驶背景下的工作原理和区别。

图3: 端到端自动驾驶方法概览。这里展示了三种流行的范式，包括两种模仿学习框架（行为克隆和逆优化控制），以及在线强化学习

基准测试

自动驾驶系统需要全面的评估来确保安全。研究人员必须使用适当的数据集、仿真器、评估指标和硬件对这些系统进行基准测试。这里阐述了三种用于基准测试端到端自动驾驶系统的方法：

（1）真实世界评估；

（2）仿真中的在线或闭环评估；

（3）驾驶数据集上的离线或开环评估。

作者侧重于可扩展和基于原则的在线仿真设置，并总结了真实世界和离线评估，以确保全面性。

真实世界评估：早期自动驾驶基准测试的努力包括实际环境评估。值得注意的是，DARPA启动了一系列赛事推动自动驾驶技术的发展。首次赛事提供了100万美元的奖金，要求车辆自主导航穿越莫哈韦沙漠的240公里路线，然而没有任何团队成功完成。最终系列赛事被称为DARPA城市挑战赛，要求车辆在一个模拟的96公里城镇赛道上行驶，遵守交通法规并避开障碍物。这些赛事促进了自动驾驶领域的重要发展，如LiDAR传感器的应用。秉承这一精神，密歇根大学建立了MCity，一个大型的控制实际环境，旨在促进自动驾驶车辆的测试。除了学术项目外，那些有能力部署无人驾驶车队的产业也依赖于实际世界评估来基准测试其算法的改进。

在线/闭环仿真：在实际世界中测试自动驾驶系统成本高且风险大。为应对这一挑战，仿真是一个可行的替代方案。仿真器可以促进快速原型设计和测试，快速迭代创意，并以低成本提供多样化场景进行单元测试。此外仿真器还提供了准确测量性能的工具。然而它们的主要缺点是，在仿真环境中获得的结果不一定能推广到现实世界。闭环评估涉及构建一个模拟实际驾驶环境的仿真环境。评估过程中，在仿真中部署驾驶系统并测量其性能。系统必须在安全通过交通的同时，向指定目标位置前进。开发此类仿真器主要涉及四个子任务：参数初始化、交通仿真、传感器仿真和车辆动态仿真。

参数初始化和交通仿真利用程序生成和数据驱动的方法来创建仿真环境和模拟交通行为。
传感器仿真采用基于图形和数据驱动的方法生成逼真的传感器数据。
车辆动态仿真通过更准确的物理建模来实现现实世界的运动模拟。
基准测试通过多个基准测试和仿真器来评估端到端自动驾驶系统的性能，确保其在现实世界中的鲁棒性和安全性。

离线/开环评估：开环评估主要通过与预先记录的专家驾驶行为对比来评估系统的性能。该方法需要评估数据集，包括：(1) 传感器读数，(2) 目标位置，(3) 对应的未来驾驶轨迹，通常由人类驾驶员提供。以传感器输入和目标位置为输入，通过比较系统预测的未来轨迹与驾驶日志中的轨迹来衡量性能。系统的评估基于其轨迹预测与人类真实值的匹配程度，以及与其他代理碰撞的概率等辅助指标。开环评估的优点是使用现实交通和传感器数据，易于实现，因为它不需要模拟器。然而，其主要缺点是它无法衡量系统在部署期间遇到的实际测试分布中的性能。在测试过程中，驾驶系统可能偏离专家驾驶走廊，因此需要验证系统从这种偏离中恢复的能力。此外在多模态场景中，预测轨迹与记录轨迹之间的距离并不是理想的指标。例如，在并入转向车道的情况下，立即并入或稍后并入两种选择都可能是有效的，但开环评估会对数据中未观察到的选项进行惩罚。因此，除了测量碰撞概率和预测误差外，还提出了一些指标以涵盖更全面的方面，如交通违规、进展和驾驶舒适度。这种方法需要从综合的轨迹数据集中抽取数据。最常用的数据集包括nuScenes、Argoverse、Waymo和nuPlan。所有这些数据集都包含大量现实世界驾驶轨迹，难度不一。

挑战

感知与输入模态的困境

感知：虽然早期的研究通过单目相机实现了车道跟随，但这种单一输入模态无法应对复杂的驾驶场景。因此，现代自动驾驶车辆引入了多种传感器，如RGB相机提供丰富的语义细节，LiDAR和立体相机提供精确的3D空间信息，而毫米波雷达和事件相机在捕捉物体相对运动方面表现优越。此外，车辆状态信息（如速度计和IMU）和导航指令也是关键输入。由于各传感器具有不同的视角、数据分布和成本，设计合理的传感器布局并实现有效融合成为一大挑战。

多传感器融合：在感知领域（如目标检测和语义分割），多传感器融合被广泛研究，通常分为早期、中期和晚期融合。端到端自动驾驶算法也采用类似的融合方法。早期融合在传感器输入送入共享特征提取器之前进行融合，常见方法是拼接。中期融合在网络内部实现，通过分别编码输入并在特征层进行融合。晚期融合则结合来自多模态的多个结果，但由于性能较差，较少被讨论。最近的研究采用Transformer来建模特征间的交互，其注意力机制在聚合不同传感器输入的上下文信息方面表现出色。未来的发展方向包括在统一空间（如鸟瞰图）中建模多模态输入，并采用更先进的Transformer融合机制。

图4：输入模态和融合策略的示例。不同模态具有不同的特性，导致有效传感器融合面临挑战

语言作为输入

人类驾驶不仅依赖视觉感知，还依靠内在知识，这些共同形成了因果行为。在自动驾驶相关领域（如具身AI），将自然语言作为细粒度的知识和指令来控制视觉运动代理取得了显著进展。然而，驾驶任务相对更直接，不需要任务分解，同时户外环境更复杂，动态主体众多，缺乏明显的锚点来进行定位。为了将语言知识纳入驾驶任务，一些数据集被提出用于基准测试户外定位和视觉语言导航任务。最近的研究利用大语言模型（LLMs）来处理复杂指令和泛化不同数据域，尽管在实际驾驶中应用LLMs仍面临挑战，如推理时间长、定量精度低和输出不稳定。潜在的解决方案包括将LLMs用于云端处理复杂场景，仅用于高层次行为预测。

依赖视觉抽象挑战

端到端自动驾驶系统大致分为两个阶段：将状态编码为潜在特征表示，然后用中间特征解码驾驶策略。在城市驾驶中，输入状态（即周围环境和自车状态）比常见的策略学习基准（如电子游戏）更加多样且高维，这可能导致表示与策略制定所需的关注区域不对齐。因此，设计“良好”的中间感知表示或首先通过代理任务预训练视觉编码器是有帮助的。这样可以使网络有效提取驾驶所需的信息，从而促进后续的策略阶段。此外，这还可以提高强化学习方法的样本效率。

表示方式设计。简单表示是指通过各种骨干网络提取。经典的卷积神经网络（CNNs）在平移等变性和高效性方面仍然占优势。经过深度预训练的CNNs显著提升了感知和下游性能。相比之下，基于Transformer的特征提取器在感知任务中展示了很好的可扩展性，但尚未广泛用于端到端驾驶。驾驶特定表示指研究人员引入了鸟瞰图（BEV）概念，将不同传感器模态和时间信息融合到统一的3D空间中。这也促进了下游任务的简单适应。

此外基于网格的3D占用被开发用于捕捉不规则物体并在规划中用于避免碰撞，然而，与BEV方法相比，密集表示带来了巨大的计算成本。地图表示是指传统的自动驾驶依赖高清地图（HD Maps）。由于高清地图的高成本，可用性，在线映射方法被设计成不同的形式，如BEV分割、矢量化车道线、中心线及其拓扑和车道段。然而最适合端到端系统的形式尚未得到验证。

尽管各种表示设计提供了如何设计后续决策过程的可能性，但它们也带来了挑战，因为需要共同设计这两个部分。除此之外考虑到在扩大训练资源的若干简单而有效的方法中观察到的趋势，明确表示（如地图）的最终必要性是不确定的。

表示学习通常包含某些归纳偏差或先验信息。在所学表示中不可避免地存在可能的信息瓶颈，且与决策无关的冗余上下文可能会被删除。

语义分割表示：一些早期方法直接使用现成网络的语义分割掩码作为后续策略训练的输入表示。SESR通过VAE将分割掩码编码为类别解耦表示。预测的通行指示器（如红绿灯状态、车道中心的偏移量和到前车的距离）被用作策略学习的表示。

中间特征表示：一些人选择从预训练任务的中间特征作为强化学习训练的有效表示。在VAE中的潜在特征通过从分割和深度图的扩散边界获得的注意力图进行增强，以突出重要区域。TARP利用一系列先前任务的数据进行不同任务相关的预测任务，以获取有用的表示。ACO通过在对比学习结构中添加转向角分类来学习判别特征。

最近PPGeo提出通过运动预测和深度估计在未经校准的驾驶视频上以自监督方式学习有效表示。ViDAR利用原始图像点云对，并通过点云预测任务预训练视觉编码器。这些工作表明，从大规模未标注数据中进行自监督表示学习以进行策略学习是有前途的，值得未来探索。

在模型化强化学习中的世界建模复杂性挑战

深度强化学习在自动驾驶中面临高样本复杂性的问题，而基于模型的强化学习（MBRL）通过允许代理与学习的世界模型交互，提供了提高样本效率的方向。世界模型包括转移动态和奖励函数，特别适用于慢速仿真器如CARLA。

然而，建模高度动态的驾驶环境仍然是一个挑战，各种简化方法如非反应性世界模型或概率顺序潜在模型被提出。为了解决学习的世界模型可能存在的不准确性，研究采用了辍学正则化和多模型集成等方法。尽管在原始图像空间中学习世界模型具有挑战性，例如可能会忽略交通灯等重要细节，但通过像Dreamer等方法将视觉动态分解为可控和不可控状态，可以有效训练策略。总体而言，端到端自动驾驶的世界模型学习是一个新兴且有前景的方向，需要进一步研究以确定需要建模的内容和如何有效地建模世界，特别是考虑到驾驶环境的复杂性和动态性。

多任务学习在端到端自动驾驶中的关键性依赖和挑战

多任务学习通过共享表示来同时执行多个相关任务，包括语义分割、深度估计和3D物体检测等，以减少计算成本、共享领域知识，并提升模型的泛化能力。对于端到端驾驶来说，这种方法尤其有利，因为它要求模型对环境有全面的理解才能进行最终的策略预测。

然而，优化不同任务的组合和损失加权以达到最佳性能是一个显著的挑战，尤其是在面对稀疏信号和高度动态的驾驶环境时。此外，构建大规模数据集以支持多种高质量注释的对齐仍然是一个重要的问题，因为当前模型在多任务学习方面的依赖性需要更深入的研究和解决。

低效专家与策略蒸馏挑战

模仿学习及其主要子类行为克隆，是一种简单的监督学习方法，旨在模仿专家行为，通常采用“师生”范式。挑战主要包括两个方面：首先，像CARLA提供的手工制定的专家自动驾驶员并非完美驾驶员，尽管可以访问周围代理的地面真实状态和地图；其次，学生只能通过传感器输入监督学习，需要同时提取感知特征并从零开始学习策略。部分研究建议将学习过程分成两个阶段：首先训练更强大的师傅网络，然后通过策略蒸馏将知识传递给学生。

例如，Chen等人利用特权代理学习环境状态下的行动，然后通过输出蒸馏让传感器运动代理近似特权代理。此外，一些方法在特征级别进行知识蒸馏，如利用分割和光流模型作为辅助教师来指导特征训练。尽管研究人员致力于设计稳健的专家并在多个层次上传递知识，但师生范式仍面临蒸馏效率低下的问题。例如，特权代理能够访问交通灯的地面真实状态，但由于这些细节在预测图像中很难蒸馏，导致视觉运动代理与特权代理之间存在显著性能差距。

解释能力的缺乏

首先，针对训练好的端到端驾驶模型（通常被称为“黑盒子”），可以采用事后的可解释人工智能（X-AI）技术，如显著性图，来揭示模型在视觉输入中主要依赖的区域。然而，这些技术提供的信息有限，其有效性和有效性难以评估。其次，直接增强模型设计中的解释性是另一种策略。例如，注意力机制通过学习的注意力权重从中间特征图中聚合重要特征，提供了一定程度的解释性。这些方法能够显示模型在决策过程中关注的重要区域，但其忠实度和实用性仍受到限制。

此外，许多基于模仿学习的方法通过将潜在特征表示解码为语义分割、深度估计、物体检测、可供性预测等有意义的信息，引入了更多的解释性。然而，大多数情况下，这些预测仅被视为辅助任务，对最终驾驶决策没有直接影响。规则整合和成本学习方法展示了一定程度的解释性，类似于传统的模块化系统。这些方法结合了检测和运动预测结果构建成本体积，通过包括安全性、舒适性和交通规则等预定义规则来评估轨迹的成本，从而提高了系统的鲁棒性和安全性。

最后，使用自然语言作为解释能力的一种手段，可以帮助人类理解系统的决策过程。例如，某些研究开发了数据集，将驾驶视频或图像与描述和解释配对，并提出了既有控制又有解释输出的端到端模型。

图6: 不同形式的可解释性总结。它们有助于人类理解端到端模型决策过程及其输出的可靠性

缺乏安全保证

在实际场景中部署自动驾驶系统时，确保安全至关重要。然而，与传统基于规则的方法不同，端到端框架的学习性质固有地缺乏关于安全性的精确数学保证。尽管如此，需注意的是，模块化驾驶系统已经在其运动规划或速度预测模块中纳入了特定的与安全相关的约束或优化措施，以强制执行安全性。这些机制可以作为后处理步骤或安全检查的一部分，潜在地被整合到端到端模型中，从而提供额外的安全保证。

自动驾驶中的因果混淆问题

驾驶任务具有时间平滑性，使得过去的运动轨迹成为预测下一个动作的可靠指标。然而，使用多帧训练的方法可能会过度依赖这种简化的规律，这被称为复制猫问题或因果混淆。在驾驶环境中，例如等待红灯时，车辆的动作可能高度依赖于其速度，因为此时车辆速度为零且动作为刹车。当交通灯从红变为绿时，这种因果关系的变化会导致模型性能的不稳定性。

解决因果混淆问题的方法包括使用单帧输入来避免外推过去的动作预测，尽管这会限制对周围车辆运动的理解能力。其他方法包括使用对抗训练来消除过去动作的影响，以及在训练过程中增加关键帧的权重，以强调决策变化时的重要性。还有一些技术利用离散编码和随机丢弃来消除因果混淆，或者使用LiDAR历史记录来保留其他车辆过去状态的信息。尽管这些方法在简化的环境中表现良好，但在复杂的视觉驾驶任务中的性能提升仍然是一个挑战。因此，如何在现代自动驾驶系统中有效地解决因果混淆问题仍然需要进一步研究和创新。

图 7: 因果混淆。车辆当前的行动与低维度的偶然特征（如速度或车辆过去的轨迹）之间存在强相关性。端到端模型可能会依赖这些特征，导致因果混淆

缺乏鲁棒性

长尾分布问题：数据集中少数类别占据大多数情况，导致模型难以泛化到多样化环境。解决方法包括过采样、欠采样、数据增强和基于权重的方法。针对此问题，一些研究依赖于仿真中的手工制作场景和对抗生成技术来增加数据多样性。

协变量转移：训练后的代理策略在未见测试环境中可能与专家策略的状态分布不同，导致严重的性能下降。DAgger算法及其扩展用于解决这一问题，通过从专家策略中补充标记数据来提高代理策略的泛化能力。

领域自适应：处理源领域与目标领域之间的差异，包括仿真到真实的适应、不同地理位置的适应、天气变化的适应等。主要方法包括图像翻译器、领域随机化和其他技术来减少真实世界与仿真器之间的差距，特别是在使用LiDAR等传感器时的适应技术的设计。

挑战和机遇

零样本学习和少样本学习：自动驾驶模型最终将面对超出训练数据分布的真实世界场景。这引发了一个问题，即我们是否能成功地将模型适应到一个未见的目标域，其中有限或没有标记数据可用。为端到端驾驶领域形式化这一任务，并结合零样本/少样本学习文献中的技术，是实现这一目标的关键步骤。

模块化端到端规划：模块化端到端规划框架优化多个模块，同时优先考虑最终的规划任务，在解释性方面具有明显优势。最近的文献和某些行业解决方案（如特斯拉、Wayve等）都支持类似的理念。在设计这些可微分感知模块时，会涉及一些问题，例如选择损失函数的必要性，例如物体检测是否需要3D边界框，是否在静态场景感知中选择BEV分割而不是车道拓扑，以及在有限模块数据情况下的训练策略。

数据引擎：大规模高质量数据对于自动驾驶至关重要，建立具有自动标注流水线的数据引擎能够极大地促进数据和模型的迭代开发。自动驾驶的数据引擎，特别是模块化端到端规划系统，需要通过大型感知模型的帮助，简化高质量感知标签的注释过程。它还应支持挖掘难/边界案例、场景生成和编辑。

基础模型：语言和视觉基础模型的最新进展表明，大规模数据和模型容量可以释放AI在高级推理任务中的巨大潜力。微调或提示学习等优化范式适用于端到端驾驶领域。然而，直接采用LLMs（大型语言模型）用于驾驶可能会有难度。建立一个“基础”驾驶模型的可行解决方案是训练一个世界模型，能够预测环境的合理未来，无论是在2D、3D还是潜在空间中。为了在规划等下游任务上表现良好，模型优化的目标需要足够复杂，超出帧级别感知的范围。

总结

在这篇综述中概述了基本方法论，并总结了仿真和基准测试的各个方面。我们深入分析了迄今为止的广泛文献，并突出了许多关键挑战和有前景的解决方案。多年来工业界已经付出了大量努力，开发能够在高速公路上实现自动驾驶的先进基于模块的系统。

然而这些系统在面对复杂场景（如城市内部街道和交叉口）时面临重大挑战。因此，越来越多的公司开始探索专门针对这些环境设计的端到端自动驾驶技术。预期通过广泛收集高质量数据、大规模模型训练和建立可靠基准，端到端方法将很快在性能和效果上超越模块化堆栈。总之端到端自动驾驶同时面临巨大的机遇和挑战，最终目标是构建通用智能体。

-- END --

声明：内容源自点云PLC，文中观点仅供分享交流，不代表本公众号立场，如涉及版权等问题，请您告知，将及时处理！