--关注、星标、回复“智驾圈子”--
↓↓查看:「智驾最前沿」智驾圈子资料目录↓↓
在自动驾驶系统中,轨迹预测在确保安全和促进平稳导航方面发挥着至关重要的作用。然而,观察到固定数据集上的预测因子的准确性与其在下游任务中使用时的驾驶性能之间存在很大差异。这种差异源于当前轨迹预测评估协议中被忽视的两个因素:
1) 数据集与真实驾驶场景之间的动力学差距;
2)预测器的计算效率;
在现实世界中,预测算法会影响自动驾驶汽车的行为,进而改变道路上其他智能体的行为;这种相互作用导致直接影响预测结果的预测器特定动力学。由于其它agent的响应是在数据集上预先确定的,因此在固定数据集上进行的评估与实际驾驶场景之间出现了显著的动力学差距。此外,仅仅关注准确性并不能满足对计算效率的需求,而计算效率对于自动驾驶系统所需的实时响应至关重要。因此,本文证明了一种交互式、任务驱动的轨迹预测评估方法对于反映其在自动驾驶中的功效至关重要!
当前的轨迹预测评估依赖于真实世界的数据集,在数据集准确性等同于预测能力的假设下运行,称之为静态评估。然而,当预测器作为自动驾驶(AD)中下游任务的子模块时,这种方法就不够了。如图1所示,数据集上平均距离误差(ADE)和最终距离误差(FDE)的评估并不一定反映实际驾驶性能。这种差异源于两个因素:固定数据集和AD系统之间的动力学差距,以及预测因子的计算效率。
动力学差距源于自动驾驶汽车的行为随着不同的轨迹预测因素而变化。在现实世界的场景中,ego-agent利用轨迹预测来确定其行为。然而,不同的轨迹预测会导致主体的不同行为,进而影响其他道路使用者的未来行为,从而导致环境中的不同动态。这直接影响预测结果,因为其他代理的行为不同。因此,在评估特定轨迹预测器时,数据集中表示的动力学与实际驾驶场景之间存在差异。为了解决这个问题,我们建议使用交互式模拟环境来评估预测器,以便进行下游决策。这种环境使我们能够计算“动态ADE/FDE”,而ego-agent与特定的预测器一起操作,从而缓解动态差距。通过大量的实验证明了动态ADE/FDE与驾驶性能之间的强相关性,这突出了解决动态差距的重要性,并强调了将其纳入评估过程的重要性。
轨迹预测模型的计算效率也是驾驶性能的一个关键方面。AD系统中的下游planner具有不同的复杂性,对这些模型提出了不同的效率要求。因此,计算效率和预测准确性之间的平衡至关重要,特别是因为更简单的规划可以适应缓慢的预测,而复杂的规划需要有效的预测来确保安全和及时的响应。为了更深入地研究这种平衡,我们对不同的计划执行时间预算进行了实验。研究结果表明,计算效率是时间约束下驾驶性能的决定因素,而动态ADE/FDE在有足够时间的场景中占主导地位。动力学间隙缓解和计算效率之间的这种相互作用突出了AD系统中优化轨迹预测的复杂性!
本文的目标是解决AD系统轨迹预测的两个具体方面。首先,揭示了现有轨迹预测评估方法的局限性,强调了它们无法准确反映驾驶性能。其次,通过识别这些缺点,引入并验证了任务驱动的交互式评估指标。这些指标通过考虑数据集和AD系统之间的动态差距以及对实时响应的需求,为评估自动驾驶的预测模型提供了一种更有效的方法。
运动预测方法可以分为三个维度:建模方法、输出类型和态势感知。建模方法包括基于物理的模型,其使用物理来模拟代理的前向运动,以及基于学习的模型,其从数据中学习和预测运动模式。输出类型可以是意图、单轨迹、多轨迹或占用图。这些输出的不同之处在于它们预测的运动类型以及它们如何处理未来状态的不确定性,态势感知包括未知、交互、场景和地图感知。它指的是预测器结合环境信息的能力,这对避免碰撞和高效驾驶至关重要。
大多数研究人员评估预测模型在真实世界数据集上的性能,其中ADE/FDE及其概率变体minADE/minFDE是常用的度量。然而,这些评估未能捕捉到数据集和真实世界场景之间的动态差距。自我主体的行为受到预测因素的影响,预测因素反过来影响其他主体的反应运动。在这项研究中,选择了四个基于模型的模型和六个基于学习的模型,它们具有不同的输出类型和情境意识,以涵盖广泛的预测模型。在交互式仿真环境中实现了这些预测器,以说明当前预测评估协议在忽略动力学差距方面的不足。
任务感知运动预测仍然是一个尚未开发的研究领域。虽然一些研究涉及这一主题,但它们仍然专注于提出任务感知指标,用于训练或消除数据集上的不当预测。任务感知度量训练的一个显著例子是规划KL偏差(PKL)度量,尽管是为3D检测而设计的,但它通过计算自我计划性能的差异来衡量检测和GT之间的相似性。在运动预测的背景下,Rowan等人提出了一种类似于PKL的控制感知度量(CAPO)。CAPO利用注意力来寻找预测轨迹之间的相关性,为引发更显著反应的制剂分配更高的权重。
另一项工作侧重于设计任务感知功能,以消除不正确的预测。所提出的指标可以捕捉不切实际的预测,并更好地与planner不可知的环境中的驾驶性能相关联。然而,这些工作是以开环的方式进行评估的,忽略了动力学间隙和预测因子计算效率的影响。本文利用交互式、任务驱动的评估来证明这两个被忽视的因素是如何影响驾驶性能的。
本节提出了在自动驾驶背景下评估运动预测和规划的问题公式。主要目标是在预测交通参与者运动的基础上制定安全高效的驾驶计划。将ego-agent,即自动驾驶汽车(AV)表示为A,将n个周围交通参与者表示为i∈{1,…,n}。
目标是通过模拟车辆可能遇到的真实世界场景,确定自动驾驶轨迹预测中涉及的关键因素,以及它们如何影响驾驶性能,最终目标是引入任务驱动的交互式评估指标来评估未来的轨迹预测模型。为了实现这一目标,需要确定四个关键组成部分:
1)要涵盖的运动预测方法;
2) planner,采用各种预测模型;
3) 模拟器,它允许我们复制交互式场景;
4) 评估协议。
使我们能够评估运动预测中涉及的关键因素和评估指标相对于真实世界驾驶性能的有效性
选择了10个具有代表性的预测模型,以实现主流方法的全面覆盖,从简单的基于模型的方法到复杂的数据驱动方法。恒定速度(CV)和恒定加速度(CA)假设被预测的agent在预测范围内保持恒定的速度或加速度。K-最近邻(KNN)基于最相似的轨迹预测代理的未来轨迹,而social KNN(s-KNN)通过考虑周围agent的相似性来扩展它。这些方法在简单的预测案例中具有广泛的有效性,因此被广泛用作基线。social LSTM(S-LSTM)、HiVT、LaneGCN和HOME代表了四种不同类型的神经网络:RNN、Transformer、GNN和CNN。DSP利用了神经网络的混合设计,代表了最先进的预测模型。
一个理想的规划应该:
1)能够处理状态和行动的不确定性;
2) 考虑驾驶性能的多个因素,如安全性(避免碰撞)、效率(及时实现目标)和舒适性(平稳驾驶);
3) 了解与其他agent的互动;
4)支持实时执。
根据这些标准选择了两个运动规划器:一个简单的规划器只满足2)和4),另一个复杂的规划器满足1)- 4),这能够得出一般的结论,并获得planner不可知的结果。
RVO。RVO规划器是一种简单化的规划器,它解决了碰撞避免约束下速度空间中的优化问题。规划使用运动预测来寻找其他agent的未来轨迹,并避免与确定性运动的可能碰撞,因此不考虑状态和动作的不确定性。由于RVO规划器不维护连续时间步长之间的状态,因此它也无法优化与其他agent交互的规划。RVO planner的目标功能涉及短时间窗口内的安全和效率,并且RVO计划程序实时执行!
DESPOT规划器是一种最先进的信念空间规划算法,可以近乎最优地解决不确定性。给定一条参考路径,planner通过一个包括三种模式的行动空间来控制自我主体的纵向加速度:{加速、减速、维持}。为了考虑随机状态和动作,我们采用了自行车模型,这是一个具有两个自由度的运动学模型,并将高斯噪声引入位移中。DESPOT考虑系统状态s和自我主体的动作a来预测其他主体的未来状态,不包括上下文信息C。此外,DESPOT可以有效地使用实时预测模型执行,其目标函数结合了安全性、效率和舒适性指标,使其成为复杂动态环境中规划的理想算法。使用这两个planner来控制ego-agent的速度,使用纯追击算法来调整转向角。
为了评估不同的预测模型,理想的驾驶模拟器应该:1)提供真实世界的地图和agent;2) 建模潜在的不受监管的行为,3)准确地反映代理之间的相互作用,4)为有效的规划提供真实的感知数据。选择SUMMIT模拟器进行实验,因为它符合上述所有标准。SUMMIT是一个基于Carla框架的复杂模拟器,提供各种真实世界的地图和agent,以创建多样化和具有挑战性的场景。它使用逼真的运动模型来模拟agent之间的交互,并支持模拟拥挤的场景和不受监管的行为,因此,它可以应对复杂的交通条件!
运动预测性能指标。本研究采用了四种常用的预测性能指标,如表2所示。虽然ADE/FDE可以用于评估单轨迹预测模型,但它们的概率变体minADE和minFDE也可以应用以评估多轨迹预测器。
Driving Performance Metrics. 驾驶性能主要考虑三个因素:安全性、舒适性和效率,假设每个场景的总时间步长为H!
在SUMMIT模拟器中为两个planner进行了两种类型的实验:固定预测次数和固定计划时间。
固定数量的预测:无论预测器的执行速度如何,planner都需要在交互式模拟环境中执行固定数量的预报,本文的目的是研究动力学间隙对驾驶性能的影响。
固定计划时间:为planner分配固定的时间预算。达到时间限制后,planner停止并输出ego-agent的动作。滴答频率设置为30赫兹、3赫兹和1赫兹,以进行具有不同时间预算的三个子实验,目的是对预测器的计算效率和预测精度之间的权衡进行深入分析。
在每个实验中为每个预测因子收集了50个场景。对于每个场景,在SUMMIT模拟器提供的四个真实世界地图之一上随机选择ego-agent的起点和终点。两个点之间保持50米的参考路径,ego-agent被指示遵循这条路径。一定数量的外来因素,包括行人、骑自行车的人和车辆,被随机放置在环境中。我们实现了除HOME和DSP外的所有选定预测因子,因为它们的运行时间明显更长,使得闭环评估不可行。这两种方法仅用于演示SUMMIT模拟器与现实世界之间的一致性。值得注意的是,RVO规划器对上述两个实验设计输出相同的结果,因为它在一个时间步长中只执行一次预测。
实验部分旨在回答以下问题:
1) 在SUMMIT模拟器上的实验是否提供了足够的证据来支持我们的说法?
2) 目前的预测评估系统能否准确地反映驾驶性能?
3)如何评估驾驶性能方面的预测因素?
为了证明SUMMIT模拟器与现实世界之间的对齐,在Argoverse数据集和从SUMMIT模拟器收集的对齐数据集上训练和评估所有选定的运动预测模型。收集了59944个场景,并将它们分为两组:80%的训练和20%的验证。每个场景由大约300个步骤组成。随后,通过考虑agents 的数量及其发生频率,将其过滤至50个步骤。随机选择最近的三个agent作为感兴趣的agent进行预测。
图2显示了Argoverse和Alignment数据集之间的预测性能比较。四个子图的R平方值分别为0.798、0.777、0.855和0.844。这些值表明,大多数变化可以通过这两个数据集中预测性能之间的线性关系来解释。此外,p值均小于0.01,为排列的统计显著性提供了有力的支持。一致的结果表明,Argoverse和Alignment数据集具有相似的基本特征,因此,SUMMIT模拟器可用于评估真实世界的性能。
本节旨在说明当前预测评估系统在准确反映真实驾驶性能方面的局限性。以ADE为例,补充材料中提供了FDE结果。将从Alignment数据集计算的ADE表示为静态ADE,而从模拟得出的ADE称为动态ADE。对于动态ADE,我们在进行交互式仿真实验后记录仿真数据,然后计算其ADE。确保每个场景至少有20个时间步长用于计算,动态ADE是通过计算给定场景中所有时间步长的ADE值的平均值来获得的。
后果我们的主要关注点是辨别静态ADE是否可以作为驾驶性能的可靠指标。图3显示了RVO和DESPOTplanner在固定规划时间和固定预测次数下进行的实验结果。结果表明,在两个实验中,静态ADE与驾驶性能之间没有显著的相关性。在DESPOT实验中,我们观察到了一种违反直觉的正相关关系,根据这一发现,更高的静态ADE意味着更好的驾驶性能。然而,这一假设缺乏现实基础,应该予以否定,因为它超过了95%的置信区间。
静态评估和驾驶性能之间的差异主要可归因于忽略了两个因素:动力学差距和预测因子的计算效率。下面将阐述了这些因素以及它们如何影响驾驶性能。
动力学差距。agent的未来轨迹是在数据集中预先确定的。然而,在AD系统中,自我主体的运动是由一个考虑到其他主体预测的planner决定的,从而影响其他主体的未来运动。不同的预测因子将导致不同于数据集中所表示的环境动态,从而导致静态和动态ADE之间的差异,最终导致与驾驶性能的相关性。为了支持我们的说法,动态ADE和驾驶性能之间的关系如图4所示。与静态ADE相比,在所有实验中,通过考虑动力学差距,动态ADE与两位planner的驾驶性能表现出更强的相关性。可以得出结论,动力学差距是导致静态评价与实际驾驶性能之间差距的主要因素之一,动态ADE通过交互式模拟环境进行评估,能够结合动力学差距,并显示出与驾驶性能的显著相关性。
预测因子的计算效率。所有规划器都需要特定数量的预测来输出一个行动。对于RVO规划器,它只需要在一个步骤中进行一次预测,而DESPOT规划器需要数百次预测进行初始化。缓慢的预测方法需要规划者花更长的时间来计划。当计划时间预算紧张时,规划者将无法提供适当的行动来实现良好的驾驶性能。
另一方面,即使预测方法足够快,可以支持规划者正确规划,预测因子的计算效率仍然会对驾驶性能产生重大影响,如图3c所示。当DESPOT计划器获得额外的时间时,它可以探索更多的节点并进行更深入的搜索,从而显著提高驾驶性能。我们可以得出结论,预测因子的计算效率也是导致静态评估与真实驾驶性能之间差异的主要因素之一。
应该注意的是,对于导出驾驶性能的预测器,在计算效率和动态预测精度之间存在权衡。如图4c所示,当勾选率设置得更高时,动态ADE与驾驶性能之间的相关性变得不那么强。这通过在较高的刻度率中进一步偏离最佳拟合线的数据点来指示。此时,决定驾驶性能的是计算效率,而不是动态预测精度,如表3所示。我们根据它们的计算效率来安排所有的预测方法。当勾选率设置为30Hz时,规划器无法生成最佳解决方案,从而驾驶性能的排名由计算效率决定。当tick rate设置为3Hz时,CA的性能优于CV,因为它们获得了接近最优的解;当tick rate设置为1Hz时,LSTM的性能也优于CV,驾驶性能由预测因子的动态预测精度和计算效率以权衡的方式决定。
首先分析可能影响ADE的因素及其与驾驶性能的相关系数。除了上述指标外,还探讨了两个常见的因素的影响:不完全观察和与自我主体的相对距离。其目的是建立一个指标,在时间预算放松时最有效地反映驾驶表现。静态ADE作为本研究的基线,分析的因素包括:“多模态”,指的是最小ADE,“动态”,表示在闭环模拟中评估的ADE;“完全观察”,只考虑具有完整观察的代理;“最接近”,只分析最近的agent。
比较结果如表4所示:驾驶性能与静态最小ADE之间的相关性比静态ADE更强。然而,当结合使用复杂的规划器(如DESPOT)时,它们的相关性变得太弱,无法准确推断驾驶性能。对于动态ADE,在两个规划器上,相关系数仍然优于静态ADE。对于其他因素,仅仅依靠具有完整观察结果的agent可能是不切实际的,因为距离很近的agent会对自我载体产生重大影响。当在动态ADE的计算中只考虑最接近的agent时,可以获得最可靠的相关性。
总之,虽然在闭环测试中评估预测模型并不总是可能的,但建议使用minADE和minFDE进行评估,而不是使用ADE和FDE。然而,一旦闭环测试可行,评估预测因子的最佳选择是使用动态ADE,它只考虑最接近的agent。当计划时间预算紧张时,使用计算效率而不是动态ADE来评估预测模型也是至关重要的,这使得既可以考虑动力学间隙的影响,也可以考虑预测因子的计算效率。
[1] What Truly Matters in Trajectory Prediction for Autonomous Driving?
转载自自动驾驶之心,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,我们将及时处理。
-- END --