端到端时代下的自动驾驶感知

智能汽车设计 2025-03-21 07:46

👀


导读

作者:PeidongL,西安交通大学。

原文来自知乎,地址:
https://zhuanlan.zhihu.com/p/14173403896

本文只做学术/技术分享,如有侵权,联系删文。
[ICLR 2025] 端到端时代下的自动驾驶感知

不得不感叹的是,自动驾驶行业的技术的发展日新月异,技术热点已经从BEV迅速地转移到了端到端上。不管如何看待端到端,最近一年端到端的火热已经切实影响到了这个行业的每一个人。相比于在紧锣密鼓恶补各种模型知识的传统规划的工程师而言,大家似乎往往默认感知算法工程师在端到端时代是有优势的。然而实际上,和很多朋友交流下来,我发现很多人还是做着和以前类似的工作,专注于某个感知task来提升端到端性能,忽略了端到端时代下真正的感知红利。最近看到@Patrick Liu佬(https://www.zhihu.com/people/patrick-llgc)分享了感知工程师如何恶补规划知识的文章,很受启发,因此想在这里结合我们ICLR 2025的工作SSR,分享一些从感知角度出发的思考。

arxiv: [2409.18341] Does End-to-End Autonomous Driving Really Need Perception Tasks?(https://arxiv.org/abs/2409.18341

github: https://github.com/PeidongLi/SSR

01

端到端的复兴

端到端并不是一项新的技术,甚至在自动驾驶技术方兴未艾时,很多人都寄希望于能用神经网络输入前视相机图像直接输出轨迹或是控制量。然而,当时的方案不管是用CNN或是强化学习,都很难达到稳定安全的实车效果。最终通过不断的实车测试迭代,主流的方案才逐渐收敛到定位-感知-规划-控制这套系统架构下。这套系统架构很好地分解了自动驾驶任务——感知模块将障碍物,车道线,红绿灯等等元素通过固定的接口传输到规划模块,再由规划模块根据上游信息输出轨迹给控制模块。

而随着BEV感知的快速发展和Transformer架构的不断成熟,端到端终于又带着全新的架构卷土重来,尤其以UniAD为代表,把这项经典技术又重新带回了大众视野内。各家纷纷掏出自己的一段式、两段式方案,只要是能把规划模块NN化,就可以说自己已经端了(端到端风评被害:D)。

02

端到端的感知红利

在传统的感知-规划框架里,感知的目的是全量化尽可能多的获取精确的场景感知信息,让规划模块能有完备的输入以得出好的规划结果。这是由于传统框架模块化的设计使得感知无法获得规划的需求,所以只能尽可能多的提取有效信息给下游模块使用。目前主流的端到端方案也大都延续了这一思路,无非是把BBox,Map这些信息换成query来表征,把原来的各种感知任务当成auxiliary loss加进来做监督。当然还有那种把感知网络decode出来的感知信息,再重新encode又输入到规划网络的两段式方案。但一个一直被忽略的问题是,端到端时代下依然还需要这么多人为定义的感知任务吗?或者说,真的还需要全量的感知信息吗?

对于感知而言,端到端最大的意义在于"Planning-Oriented",也就是从全知全量的感知到可以学习的的按需感知。我们以传统的检测任务打个比方,感知任务就相当于特征提取,轨迹生成则相当于特征处理。目前定义的各类感知任务就类似于SIFT这种手工特征,是人为定义的而非学习的。而端到端架构打通了从轨迹生成任务到感知模块之间的反向传播通路,为一种可学习而非人为设计的感知模块提供了可能。这正是端到端时代下感知最大的红利,也是目前主流端到端方法因循守旧所忽略掉的。扪心自问,这些人为定义的感知任务不恰恰就是感知模块自己的手工特征算子吗?

在端到端时代,不仅规划模块要革自己的命,感知模块也要有勇气革自己的命。也许端到端模型对于场景的理解方式和我们人类并不相同,基于人类先验知识定义的感知任务反而约束了端到端模型的上限。很多最新的用大模型来做自动驾驶场景理解的工作,同样也能不依赖于这些感知任务来实现很好的场景理解。更何况,感知任务同样层出不穷,从2D检测3D检测再到Occ,我们也无法定义和穷举所有的有效任务。相反地,如果我们通过learning的方式在端到端模型中去除了这些人为定义的感知任务,得到的好处也是显而易见的。一方面,这将极大减少模型对于标注资源和训练资源的需求,提高端到端模型的Scalability;另一方面,按需感知的高效推理速度能使得端到端模型更快地走向大规模量产部署,真正让端到端模型在数据闭环下乘上Scaling Law的东风。


03

Navigation-Guided Perception

在主流的端到端方案中,感知任务的结果不仅仅显式地作为上下游的中继,更为整体的模型性能起着重要作用。若要不依赖于这些感知任务,仍然能隐式地实现对于场景的有效理解,便成了一个非常有挑战的任务。在和@翠翠Darren(https://www.zhihu.com/people/cuidixiao)的一次讨论中,我们聊到为什么感知一定要做全量感知而非根据下游的需求来做局部感知。沿着这一思路,受人类驾驶员的注意力机制启发,我们提出了一种Navigation-Guided Perception的方案,也就是根据导航信息来引导感知注意力——人类驾驶员在开车的时候也不会做全量的感知,而是根据不同的驾驶意图去关注场景中的不同部分。但是如果模型直接用behavior来引导感知,就会陷入先有鸡还是先有蛋的怪圈。而导航信息无论是以引导线或者command来表示,都可以看成是一种简化的behavior。在传统方案中,导航信息往往只被用作在规划模块中辅助最终轨迹的生成,但我们认为它同样可以引导感知信息的提取,类似于人类驾驶员会根据导航指引关注场景中的不同信息。

图片
图片

为了实现这一构想,我们设计了一个基于BEV特征的Scene TokenLearner(STL)模块,来实现对于场景特征的高效提取。我一直是一个BEV特征的支持者,这一点从我们之前的工作(DualBEV)可以看出,这是由于BEV特征集成了语义信息和几何信息以包含完备的场景信息。虽然task-specific query直接和图像交互可以在各个感知task上实现很好的效果,但是BEV特征仍然是我认为的感知乃至端到端的基石模块。既然BEV特征包含着所有的场景信息,那么理论上我们就可以直接根据BEV特征来输出规划轨迹。然而,这种类似于BEV-Planner的做法无论在效率还是性能上都不能够满足我们的要求。因此我们继续沿用了我们在做DualBEV时候的思路,希望在BEV层面引入注意力机制,但与直接预测占据概率不同的是,我们的STL模块首先使用一个SE模块将导航信息引入到BEV特征中,再通过TokenLearner预测BEV注意力来将场景表征压缩为16个scene query。而Planning Decoder只需要和这16个scene query做交互就可得到最后的规划轨迹。也就是说,我们发现在Navigation-Guided Perception模式下,仅仅只使用16个query就可以有效表征当前规划任务所需要的感知信息,这在原来的全量感知方案下是难以想象的——哪怕是号称Sparse的各种端到端方案,实际上也需要上百个query来表征感知到的场景信息。通过这种对感知模块的极致压缩和高效利用,我们的端到端方案SSR不仅在训练效率和推理速度上都成倍地提高了,在性能上同样也大幅超越了各种SOTA的方案。

图片

04

世界模型——隐式特征监督的新方向

为了使模型进一步摆脱对于人为定义的感知任务的依赖,我们诉诸自监督的方式,通过时序上的信息来增强对场景的理解能力。具体来说,我们引入了一个基于BEV特征的世界模型,在训练过程中通过预测未来帧的BEV特征和实际的未来帧特征做自监督,来增强scene query对于场景的理解能力。这种方法在之前BEV检测的HoP,端到端任务的LAW中都是有出现的。但由于我们Navigation-Guided Perception的方案在每一帧上关注的区域是在不断变化的,就无法按照这些策略mask掉某一帧然后进行一一对应的scene query监督。在经历了很多种失败的尝试后,我们最终提出了一种在sparse query上做轨迹规划,而在dense BEV上做世界模型的方案。由于世界模型只在训练时作为一种增强方式来提升性能,这种设计既能保证轨迹规划任务在推理时的高效,同样也能使得世界模型在自监督时具备一致性来实现模型的收敛。我们目前的设计还仍然比较简单,并不像广泛定义下的世界模型那样直接囊括掉原始数据如图片、点云等的生成。但随着世界模型的研究越来越成熟,我们认为它终将会完全替代掉目前人定任务在感知模块的作用,成为隐式场景表征最可靠的监督方式。


图片


05

端到端感知的AlexNet时刻

我们设计的SSR框架,最终仅用16个自监督可学习的query来作为场景的高效稀疏表征,代替了传统端到端方案里成百上千个人为定义并标注监督的query,使得感知模块终于从handcrafted perception task解脱出来。在nuScenes和Carla上我们分别进行了开环和闭环实验, 对比了大量SOTA方案甚至包括arxiv上还未正式发表的工作,都实现了效率和性能上的大幅超越。

图片
图片

为了探寻导航信息如何指引scene query自适应的感知场景中与驾驶意图相关的区域,我们通过特征图的方式,对这些scene query进行了可视化。可以看出,在不同的导航指令下,左图中红色星号代表的scene query最高亮特征位置会关注到对应的场景中最可能跟自车发生交互的区域。同样地,如果在右图中对同一个路口场景输入不同的导航指令,scene query同样会自适应的调整自己的注意力来关注到不同的感知目标。而对比左右图中居中的图像,我们也可以发现对于相同的导航指令,在不同场景下,这种可学习的感知模块依然能够很好的做出调整。更多的实验细节和讨论分析可以直接翻阅我们的论文,这里就不再赘述。

图片

尽管我们的方案摒弃掉了过去往往用作可视化的显式感知结果,但并没有放弃端到端模型的可解释性。就如同传统检测任务放弃了角点、特征点的提取显示,但仍然可以用特征图等方式可视化出CNN的热力图。我们今天给出的方案显然并不是端到端技术的终局,但我们希望它能够像AlexNet那样,成为可学习感知模块首次大幅超越人定感知模块的分界线,引导后续端到端任务的感知模块能够朝着可学习按需感知的方向大步地前进。我们也同样认为,一个可学习的而非人为定义的感知模块,才是在端到端时代下感知工程师真正应该发力的方向。而沉迷于某个具体感知任务的指标得失,则迟早会像手工设计的特征提取算子一样被时代淘汰。

获取报告请扫码加入知识星球!图片

智能汽车设计 关注智能汽车发展,分享智能汽车知识!
评论 (0)
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 173浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 90浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 116浏览
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 76浏览
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 103浏览
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 80浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 133浏览
  • 文/陈昊编辑/cc孙聪颖‍2025 年,作为中国实施制造强国战略第一个十年计划的关键里程碑,被赋予了极为重大的意义。两会政府工作报告清晰且坚定地指出,要全力加速新质生产力的发展进程,推动传统产业全方位向高端化、智能化与绿色化转型。基于此,有代表敏锐提议,中国制造应从前沿技术的应用切入,逐步拓展至产业生态的构建,最终延伸到提升用户体验的维度,打出独树一帜、具有鲜明特色的发展牌。正是在这样至关重要的时代背景之下,于 AWE 2025(中国家电及消费电子博览会)这一备受瞩目的舞台上,高端厨房的中国方案
    华尔街科技眼 2025-03-25 16:10 76浏览
  • 家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗?#70年代结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。#80年代随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这“新三件”,成为了人们对生活的新诉求。#90年代彩电、冰箱、全自动洗衣机开始大量进入普通家庭,快速全面普及,90年代末,家电产品实现了从奢侈品到必需品的转变。#00年代至今00年代,随着人们追求高品质生活的愿望,常用的电视机、洗衣机等已经远
    启英AI平台 2025-03-25 14:12 80浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 117浏览
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 98浏览
  •       知识产权保护对工程师的双向影响      正向的激励,保护了工程师的创新成果与权益,给企业带来了知识产权方面的收益,企业的创新和发明大都是工程师的劳动成果,他们的职务发明应当受到奖励和保护,是企业发展的重要源泉。专利同时也成了工程师职称评定的指标之一,专利体现了工程师的创新能力,在求职、竞聘技术岗位或参与重大项目时,专利证书能显著增强个人竞争力。专利将工程师的创意转化为受法律保护的“无形资产”,避免技术成果被他人抄袭或无偿使
    广州铁金刚 2025-03-25 11:48 173浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 115浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦