不确定性编码增强的鲁棒自动驾驶多模态目标检测

智能汽车设计 2023-09-14 07:39

本文来源: FSM Lab

本文重点

Summary

本文介绍了香港城市大学未来智慧交通实验室的ECAI2023录用论文"Uncertainty-Encoded Multi-Modal Fusion for Robust Object Detection in Autonomous Driving"。该论文对多模态3D目标检测在各种极端场景下的不确定性进行了深入的量化和分析。根据评估结果,我们设计了一种名为UMoE的基于不确定性编码的混合专家融合模块。此模块显著提高了现有LiDAR与摄像头融合的3D目标检测模型在极端场景(如雪天、大雾、对抗攻击和光斑攻击)中的表现,并可轻松集成到任何融合后的3D目标检测模型中。


1

不确定性在极端场景下的指导意义











3D目标检测是自动驾驶感知的核心任务。近年来,基于LiDAR和摄像头的3D目标检测受到了广泛关注,因为它们为目标检测提供了互补的信息,如深度和视觉特征,从而实现了卓越的性能。但我们发现,许多融合策略并未充分考虑每个输入的质量,当某个传感器受到极端环境的影响时,整体的融合效果可能会受到严重影响。如图一所示,由于对抗攻击或浓雾,融合后的检测结果出现了误检(false positive)和漏检(miss detection)。


图一:摄像头、激光雷达、融合基线以及不确定性编码增强融合在晴朗、对抗攻击和恶劣天气这三种驾驶场景下的3D目标检测结果。


尽管不确定性已被广泛应用于描述单模态目标检测的性能,但在多模态融合中仍缺乏有效的策略。为了探索不确定性在LiDAR与摄像头融合中的潜在价值,我们对两种模态在正常和极端场景下的不确定性进行了详细的量化和分析。图二展示了在四种不同驾驶环境下,基于LiDAR和摄像头的检测模型的不确定性得分。

图二:四种驾驶场景下的平均不确定性得分。


从图一和图二的结果中,我们发现不确定性得分对于感知性能具有重要的指示作用

1. 当传感器受到极端环境的影响时,检测结果的分类和回归的不确定性得分,尤其是对于误检,通常会上升。

2. 在相同的驾驶场景中,误检产生的分类和回归不确定性得分远高于正确检测。

但我们也注意到,LiDAR和摄像头在不同的极端场景下对不确定性的敏感度不同,这为我们带来了一些挑战:

1. LiDAR和摄像头对环境变化的敏感性和认知能力有所不同,摄像头的不确定性得分比LiDAR更加波动。

2. LiDAR和摄像头的回归不确定性得分存在数量级的差异。


2

不确定性编码增强的混合专家融合模块











为了应对上述挑战,我们设计了一个名为“基于不确定性编码的混合专家融合模块”(UMoE)。此模块连接了激光雷达/摄像头3D目标检测器和后融合网络,通过考虑不同模态的不确定性来实现更鲁棒的融合效果。图三展示了集成UMoE模块的LiDAR-摄像头后融合架构。


图三:集成UMoE模块的LiDAR-摄像头后融合架构。虚线表示UMoE模块的数据流,实线表示后融合的数据流。


UMoE模块主要由两部分组成:


  1.  不确定性评分(Uncertainty Scoring)

首先,我们利用基于LiDAR和摄像头的目标检测器处理传感器数据,生成检测框。结合MC-Dropout和Direct Modeling两种方法,我们为每一个3D检测框计算并赋予一个不确定性得分和,这些得分将作为UMoE模块的关键输入。具体而言,对于置信度输出的不确定性得分,我们通过计算香农熵和置信度本身,来衡量其在true positive检测框分布中的偏移程度。而对于框输出的不确定性得分u_reg,我们首先计算其total variance,然后与Direct Modeling方法计算出的数据不确定性得分进行累加。

图四:置信度输出的不确定性标量分数

图五:框输出的不确定性标量分数


2. 基于混合专家架构的融合

为了克服由不确定性的不同敏感度和表征方式带来的挑战,我们引入了优化后的混合专家架构,以更有效地融合编码的不确定性得分。在此架构中,每一种传感器模态都配备了一个专门的专家网络(expert network),该网络负责将检测框及其相应的不确定性得分映射到一个统一的特征空间,为后续的跨模态融合打下基础。随后,我们的门控网络(gating network)将所有模态的特征进行拼接,并预测出每个检测框在经过不确定性编码后的置信度得分。经过这一步骤,更新后的置信度得分将与检测框一同输入到后融合网络中,以实现更精确的目标检测。


3

实验与分析











为了验证UMoE模块的实际效果,我们选取了两种常用的后融合网络,并在以下四个不同数据集上进行了3D目标检测的平均精度评估:1)晴朗天气下的KITTI数据集;2)受到对抗攻击的KITTIAdv数据集;3)受到光斑攻击的KITTIBlind数据集;4)极端天气条件下的STF数据集。需要指出的是,KITTI和STF是公开的自动驾驶真实世界数据集,而KITTIAdv和KITTIBlind是我们基于KITTI数据集,对摄像头数据进行对抗攻击和光斑攻击后,自行合成的数据集。


接下来,我们将UMoE模块与上述两组模型结合,进行了重新测试。通过对比表一和表二的数据,明显可以看出,当引入UMoE模块后,无论是在极端天气(如浓雾、雪天)还是在各种攻击场景下,模型的性能都得到了显著的提升。而在标准的晴朗天气场景中,其性能与未引入UMoE模块的基线模型相当。

表一:不含 UMoE 模块和集成 UMoE 模块的后融合模型在STF数据集上 Clear(晴朗)、Dense Fog (浓雾) 和Snow (雪天) 场景的 3D目标检测平均精度。


表二:不含 UMoE 模块和集成 UMoE 模块的后融合模型在KITTI (晴朗)、KITTIAdv (对抗攻击) 和 KITTIBlind (光斑攻击) 数据集上的 3D目标检测平均精度。


图六和图七的可视化结果进一步证明了UMoE模块的优越性,它能够有效地处理由雪天、对抗攻击引起的误检,以及由浓雾环境、光斑攻击引起的漏检。


图六:极端天气数据集STF下的3D目标检测可视化结果。


图七:KITTI (晴朗)、KITTIAdv (对抗攻击) 和 KITTIBlind (光斑攻击) 数据集上的 3D目标检测可视化结果。



END

智能汽车设计 关注智能汽车发展,分享智能汽车知识!
评论 (0)
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 109浏览
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 99浏览
  • 曾几何时,汽车之家可是汽车资讯平台领域响当当的“扛把子”。2005 年成立之初,它就像一位贴心的汽车小助手,一下子就抓住了大家的心。它不仅吸引了海量用户,更是成为汽车厂商和经销商眼中的“香饽饽”,广告投放、合作推广不断,营收和利润一路高歌猛进,2013年成功在纽交所上市,风光无限。2021年更是在香港二次上市,达到了发展的巅峰,当年3月15日上市首日,港股股价一度高达184.6港元,市值可观。然而,如今的汽车之家却陷入了困境,业务下滑明显。业务增长瓶颈从近年来汽车之家公布的财报数据来看,情况不容
    用户1742991715177 2025-04-07 21:48 86浏览
  •     在研究Corona现象时发现:临界电压与介电材料表面的清洁程度有关。表面越清洁的介电材料,临界电压越高;表面污染物越多的地方,越容易“爬电”。关于Corona现象,另见基础理论第007篇。    这里说的“污染物”,定义为——可能影响介电强度或表面电阻率的固体、液体或气体(电离气体)的任何情况。    IEC 60664-1 (对应GB/T 16935.1-2023) 定义了 Pollution Degree,中文术语是“污染等
    电子知识打边炉 2025-04-07 22:06 78浏览
  • 贞光科技作为三星电机车规电容代理商,针对电动汽车领域日益复杂的电容选型难题,提供全方位一站式解决方案。面对高温稳定性、高可靠性、高纹波电流和小型化等严苛要求,三星车规电容凭借完整产品矩阵和卓越技术优势,完美满足BMS、电机控制器和OBC等核心系统需求。无论技术选型、供应链保障、样品测试还是成本优化,贞光科技助力客户在电动汽车产业高速发展中占据技术先机。在电动汽车技术高速发展的今天,作为汽车电子系统中不可或缺的关键元器件,电容的选型已成为困扰许多工程师和采购人员的难题。如何在众多参数和型号中找到最
    贞光科技 2025-04-07 17:06 65浏览
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 157浏览
  • HDMI从2.1版本开始采用FRL传输模式,和2.0及之前的版本不同。两者在物理层信号上有所区别,这就需要在一些2.1版本的电路设计上增加匹配电路,使得2.1版本的电路能够向下兼容2.0及之前版本。2.1版本的信号特性下面截取自2.1版本规范定义,可以看到2.1版本支持直流耦合和交流耦合,其共模电压和AVCC相关,信号摆幅在400mV-1200mV2.0及之前版本的信号特性HDMI2.0及之前版本采用TMDS信号物理层,其结构和参数如下:兼容设计根据以上规范定义,可以看出TMDS信号的共模电压范
    durid 2025-04-08 19:01 94浏览
  • 文/Leon编辑/cc孙聪颖‍转手绢、跳舞、骑车、后空翻,就在宇树、智元等独角兽企业率领“机器人大军”入侵短视频时,却有资本和科技大佬向此产业泼了一盆冷水。金沙江创投管理合伙人朱啸虎近日突然对人形机器人发难,他表示“最近几个月正在批量退出人形机器人公司”。“只是买回去做研究的,或者买回去做展示的,这种都不是我们意义上的商业化,谁会花十几万买一个机器人去干这些活?”朱啸虎吐槽。不过,朱啸虎的观点很快就遭到驳斥,众擎机器人的创始人、董事长赵同阳回怼道:“(朱啸虎)甚至问出了人形机器人在这个阶段有什么
    华尔街科技眼 2025-04-07 19:24 123浏览
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 134浏览
  • 在全球电子产业面临供应链波动、技术迭代和市场需求变化等多重挑战的背景下,安博电子始终秉持“让合作伙伴赢得更多一点”的核心理念,致力于打造稳健、高效、可持续的全球供应链体系。依托覆盖供应商管理、品质检测、智能交付的全链路品控体系,安博电子不仅能确保电子元器件的高可靠性与一致性,更以高透明的供应链管理模式,助力客户降低风险、提升运营效率,推动行业标准升级,与全球合作伙伴共同塑造更具前瞻性的产业生态。动态优选机制:构建纯净供应链生态安博电子将供应商管理视为供应链安全的根基。打造动态优选管控体系,以严格
    电子资讯报 2025-04-07 17:06 74浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦