端到端时代下的自动驾驶感知有何变化?

智驾最前沿 2025-03-08 08:40

编者语:后台回复“入群”,加入「智驾最前沿」微信交流群


原文链接:https://zhuanlan.zhihu.com/p/14173403896

[ICLR 2025] 端到端时代下的自动驾驶感知

不得不感叹的是,自动驾驶行业的技术的发展日新月异,技术热点已经从BEV迅速地转移到了端到端上。不管如何看待端到端,最近一年端到端的火热已经切实影响到了这个行业的每一个人。相比于在紧锣密鼓恶补各种模型知识的传统规划的工程师而言,大家似乎往往默认感知算法工程师在端到端时代是有优势的。

但实际上,和很多朋友交流下来,我发现很多人还是做着和以前类似的工作,专注于某个感知task来提升端到端性能,忽略了端到端时代下真正的感知红利。最近看到@Patrick Liu大佬(https://www.zhihu.com/people/patrick-llgc)分享了感知工程师如何恶补规划知识的文章,很受启发,因此想在这里结合我们ICLR 2025的工作SSR,分享一些从感知角度出发的思考。

arxiv: [2409.18341] Does End-to-End Autonomous Driving Really Need Perception Tasks?(https://arxiv.org/abs/2409.18341)

github: https://github.com/PeidongLi/SSR


端到端的复兴

端到端并不是一项新的技术,甚至在自动驾驶技术方兴未艾时,很多人都寄希望于能用神经网络输入前视相机图像直接输出轨迹或是控制量。然而,当时的方案不管是用CNN或是强化学习,都很难达到稳定安全的实车效果。最终通过不断的实车测试迭代,主流的方案才逐渐收敛到定位-感知-规划-控制这套系统架构下。这套系统架构很好地分解了自动驾驶任务——感知模块将障碍物,车道线,红绿灯等等元素通过固定的接口传输到规划模块,再由规划模块根据上游信息输出轨迹给控制模块。

而随着BEV感知的快速发展和Transformer架构的不断成熟,端到端终于又带着全新的架构卷土重来,尤其以UniAD为代表,把这项经典技术又重新带回了大众视野内。各家纷纷掏出自己的一段式、两段式方案,只要是能把规划模块NN化,就可以说自己已经端了(端到端风评被害:D)。


端到端的感知红利

在传统的感知-规划框架里,感知的目的是全量化尽可能多的获取精确的场景感知信息,让规划模块能有完备的输入以得出好的规划结果。这是由于传统框架模块化的设计使得感知无法获得规划的需求,所以只能尽可能多的提取有效信息给下游模块使用。目前主流的端到端方案也大都延续了这一思路,无非是把BBox,Map这些信息换成query来表征,把原来的各种感知任务当成auxiliary loss加进来做监督。当然还有那种把感知网络decode出来的感知信息,再重新encode又输入到规划网络的两段式方案。但一个一直被忽略的问题是,端到端时代下依然还需要这么多人为定义的感知任务吗?或者说,真的还需要全量的感知信息吗?

对于感知而言,端到端最大的意义在于"Planning-Oriented",也就是从全知全量的感知到可以学习的的按需感知。我们以传统的检测任务打个比方,感知任务就相当于特征提取,轨迹生成则相当于特征处理。目前定义的各类感知任务就类似于SIFT这种手工特征,是人为定义的而非学习的。而端到端架构打通了从轨迹生成任务到感知模块之间的反向传播通路,为一种可学习而非人为设计的感知模块提供了可能。这正是端到端时代下感知最大的红利,也是目前主流端到端方法因循守旧所忽略掉的。扪心自问,这些人为定义的感知任务不恰恰就是感知模块自己的手工特征算子吗?

在端到端时代,不仅规划模块要革自己的命,感知模块也要有勇气革自己的命。也许端到端模型对于场景的理解方式和我们人类并不相同,基于人类先验知识定义的感知任务反而约束了端到端模型的上限。很多最新的用大模型来做自动驾驶场景理解的工作,同样也能不依赖于这些感知任务来实现很好的场景理解。

更何况,感知任务同样层出不穷,从2D检测3D检测再到Occ,我们也无法定义和穷举所有的有效任务。相反地,如果我们通过learning的方式在端到端模型中去除了这些人为定义的感知任务,得到的好处也是显而易见的。一方面,这将极大减少模型对于标注资源和训练资源的需求,提高端到端模型的Scalability;另一方面,按需感知的高效推理速度能使得端到端模型更快地走向大规模量产部署,真正让端到端模型在数据闭环下乘上Scaling Law的东风。


Navigation-Guided Perception

在主流的端到端方案中,感知任务的结果不仅仅显式地作为上下游的中继,更为整体的模型性能起着重要作用。若要不依赖于这些感知任务,仍然能隐式地实现对于场景的有效理解,便成了一个非常有挑战的任务。在和@翠翠Darren(https://www.zhihu.com/people/cuidixiao)的一次讨论中,我们聊到为什么感知一定要做全量感知而非根据下游的需求来做局部感知。

沿着这一思路,受人类驾驶员的注意力机制启发,我们提出了一种Navigation-Guided Perception的方案,也就是根据导航信息来引导感知注意力——人类驾驶员在开车的时候也不会做全量的感知,而是根据不同的驾驶意图去关注场景中的不同部分。但是如果模型直接用behavior来引导感知,就会陷入先有鸡还是先有蛋的怪圈。而导航信息无论是以引导线或者command来表示,都可以看成是一种简化的behavior。在传统方案中,导航信息往往只被用作在规划模块中辅助最终轨迹的生成,但我们认为它同样可以引导感知信息的提取,类似于人类驾驶员会根据导航指引关注场景中的不同信息。

图片
图片

为了实现这一构想,我们设计了一个基于BEV特征的Scene TokenLearner(STL)模块,来实现对于场景特征的高效提取。我一直是一个BEV特征的支持者,这一点从我们之前的工作(DualBEV)可以看出,这是由于BEV特征集成了语义信息和几何信息以包含完备的场景信息。虽然task-specific query直接和图像交互可以在各个感知task上实现很好的效果,但是BEV特征仍然是我认为的感知乃至端到端的基石模块。

既然BEV特征包含着所有的场景信息,那么理论上我们就可以直接根据BEV特征来输出规划轨迹。然而,这种类似于BEV-Planner的做法无论在效率还是性能上都不能够满足我们的要求。因此我们继续沿用了我们在做DualBEV时候的思路,希望在BEV层面引入注意力机制,但与直接预测占据概率不同的是,我们的STL模块首先使用一个SE模块将导航信息引入到BEV特征中,再通过TokenLearner预测BEV注意力来将场景表征压缩为16个scene query。

而Planning Decoder只需要和这16个scene query做交互就可得到最后的规划轨迹。也就是说,我们发现在Navigation-Guided Perception模式下,仅仅只使用16个query就可以有效表征当前规划任务所需要的感知信息,这在原来的全量感知方案下是难以想象的——哪怕是号称Sparse的各种端到端方案,实际上也需要上百个query来表征感知到的场景信息。通过这种对感知模块的极致压缩和高效利用,我们的端到端方案SSR不仅在训练效率和推理速度上都成倍地提高了,在性能上同样也大幅超越了各种SOTA的方案。

图片


世界模型——隐式特征监督的新方向

为了使模型进一步摆脱对于人为定义的感知任务的依赖,我们诉诸自监督的方式,通过时序上的信息来增强对场景的理解能力。具体来说,我们引入了一个基于BEV特征的世界模型,在训练过程中通过预测未来帧的BEV特征和实际的未来帧特征做自监督,来增强scene query对于场景的理解能力。这种方法在之前BEV检测的HoP,端到端任务的LAW中都是有出现的。但由于我们Navigation-Guided Perception的方案在每一帧上关注的区域是在不断变化的,就无法按照这些策略mask掉某一帧然后进行一一对应的scene query监督。

在经历了很多种失败的尝试后,我们最终提出了一种在sparse query上做轨迹规划,而在dense BEV上做世界模型的方案。由于世界模型只在训练时作为一种增强方式来提升性能,这种设计既能保证轨迹规划任务在推理时的高效,同样也能使得世界模型在自监督时具备一致性来实现模型的收敛。我们目前的设计还仍然比较简单,并不像广泛定义下的世界模型那样直接囊括掉原始数据如图片、点云等的生成。但随着世界模型的研究越来越成熟,我们认为它终将会完全替代掉目前人定任务在感知模块的作用,成为隐式场景表征最可靠的监督方式。

图片


端到端感知的AlexNet时刻

我们设计的SSR框架,最终仅用16个自监督可学习的query来作为场景的高效稀疏表征,代替了传统端到端方案里成百上千个人为定义并标注监督的query,使得感知模块终于从handcrafted perception task解脱出来。

nuScenes和Carla上我们分别进行了开环和闭环实验, 对比了大量SOTA方案甚至包括arxiv上还未正式发表的工作,都实现了效率和性能上的大幅超越。

图片
图片

为了探寻导航信息如何指引scene query自适应的感知场景中与驾驶意图相关的区域,我们通过特征图的方式,对这些scene query进行了可视化。可以看出,在不同的导航指令下,左图中红色星号代表的scene query最高亮特征位置会关注到对应的场景中最可能跟自车发生交互的区域。

同样地,如果在右图中对同一个路口场景输入不同的导航指令,scene query同样会自适应的调整自己的注意力来关注到不同的感知目标。而对比左右图中居中的图像,我们也可以发现对于相同的导航指令,在不同场景下,这种可学习的感知模块依然能够很好的做出调整。更多的实验细节和讨论分析可以直接翻阅我们的论文,这里就不再赘述。

图片

尽管我们的方案摒弃掉了过去往往用作可视化的显式感知结果,但并没有放弃端到端模型的可解释性。就如同传统检测任务放弃了角点、特征点的提取显示,但仍然可以用特征图等方式可视化出CNN的热力图。我们今天给出的方案显然并不是端到端技术的终局,但我们希望它能够像AlexNet那样,成为可学习感知模块首次大幅超越人定感知模块的分界线,引导后续端到端任务的感知模块能够朝着可学习按需感知的方向大步地前进。我们也同样认为,一个可学习的而非人为定义的感知模块,才是在端到端时代下感知工程师真正应该发力的方向。而沉迷于某个具体感知任务的指标得失,则迟早会像手工设计的特征提取算子一样被时代淘汰。

-- END --

声明:内容源自知乎@PeidongL,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,将及时处理!

图片

智驾最前沿 「智驾最前沿」深耕自动驾驶领域技术、资讯等信息,解读行业现状、紧盯行业发展、挖掘行业前沿,致力于助力自动驾驶发展与落地!公众号:智驾最前沿
评论 (0)
  • 递交招股书近一年后,曹操出行 IPO 进程终于迎来关键节点。从 2024 年 4 月首次递表,到 2025 年 4 月顺利通过中国证监会境外发行上市备案,并迅速更新招股书。而通过上市备案也标志着其赴港IPO进程进入实质性推进阶段,曹操出行最快有望于2025年内完成港股上市,成为李书福商业版图中又一关键落子。行路至此,曹操出行面临的挑战依然不容忽视。当下的网约车赛道,早已不是当年群雄逐鹿的草莽时代,市场渐趋饱和,竞争近乎白热化。曹操出行此时冲刺上市,既是背水一战,也是谋篇布局。其招股书中披露的资金
    用户1742991715177 2025-05-10 21:18 100浏览
  • ‌磁光克尔效应(Magneto-Optic Kerr Effect, MOKE)‌ 是指当线偏振光入射到磁性材料表面并反射后,其偏振状态(偏振面旋转角度和椭偏率)因材料的磁化强度或方向发生改变的现象。具体表现为:1、‌偏振面旋转‌:反射光的偏振方向相对于入射光发生偏转(克尔旋转角 θK)。2、‌椭偏率变化‌:反射光由线偏振变为椭圆偏振(克尔椭偏率 εK)。这一效应直接关联材料的磁化状态,是表征磁性材料(如铁磁体、反铁磁体)磁学性质的重要非接触式光学探测手段,广泛用于
    锦正茂科技 2025-05-12 11:02 274浏览
  •   电磁数据管理系统深度解析   北京华盛恒辉电磁数据管理系统作为专业的数据处理平台,旨在提升电磁数据的处理效率、安全性与可靠性。以下从功能架构、核心特性、应用场景及技术实现展开分析:   应用案例   目前,已有多个电磁数据管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据管理系统。这些成功案例为电磁数据管理系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与接入:实时接收天线、频谱仪等设备数据,兼容多协议接口,确保数据采集的全面性与实时性
    华盛恒辉l58ll334744 2025-05-13 10:59 208浏览
  • 在全球供应链紧张和国产替代需求推动下,国产存储芯片产业快速发展,形成设计到封测一体化的完整生态。北京君正、兆易创新、紫光国芯、东芯股份、普冉股份和佰维存储等六大上市公司在NOR/NAND Flash、DRAM、嵌入式存储等领域布局各具特色,推动国产替代提速。贞光科技代理的品牌紫光国芯,专注DRAM技术,覆盖嵌入式存储与模组解决方案,为多领域客户提供高可靠性产品。随着AI、5G等新兴应用兴起,国产存储厂商有望迎来新一轮增长。存储芯片分类与应用易失性与非易失性存储芯片易失性存储芯片(Volatile
    贞光科技 2025-05-12 16:05 157浏览
  • 在 AI 浪潮席卷下,厨电行业正经历着深刻变革。AWE 2025期间,万得厨对外首次发布了wan AiOS 1.0组织体超智能系统——通过AI技术能够帮助全球家庭实现从健康检测、膳食推荐,到食材即时配送,再到一步烹饪、营养总结的个性化健康膳食管理。这一创新之举并非偶然的个案,而是整个厨电行业大步迈向智能化、数字化转型浪潮的一个关键注脚,折射出全行业对 AI 赋能的热切渴求。前有标兵后有追兵,万得厨面临着高昂的研发成本与技术迭代压力,稍有懈怠便可能被后来者赶
    用户1742991715177 2025-05-11 22:44 175浏览
  •   定制软件开发公司推荐清单   在企业数字化转型加速的2025年,定制软件开发需求愈发多元复杂。不同行业、技术偏好与服务模式的企业,对开发公司的要求大相径庭。以下从技术赛道、服务模式及行业场景出发,为您提供适配的定制软件开发公司推荐及选择建议。   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转
    华盛恒辉l58ll334744 2025-05-12 15:55 307浏览
  •   基于 2025 年行业权威性与时效性,以下梳理国内知名软件定制开发企业,涵盖综合型、垂直领域及特色技术服务商:   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转型、新能源软件、光伏软件、汽车软件,ERP,系统二次开发,CRM等领域有很多成功案例。   五木恒润科技有限公司:是一家专业的部队信
    华盛恒辉l58ll334744 2025-05-12 16:13 236浏览
  • 文/Leon编辑/cc孙聪颖‍2025年1月至今,AI领域最出圈的除了DeepSeek,就是号称首个“通用AI Agent”(智能体)的Manus了,其邀请码一度被炒到8万元。很快,通用Agent就成为互联网大厂、AI独角兽们的新方向,迅速地“卷”了起来。国外市场,Open AI、Claude、微软等迅速推出Agent产品或构建平台,国内企业也在4月迅速跟进。4月,字节跳动、阿里巴巴、百度纷纷入局通用Agent市场,主打复杂的多任务、工作流功能,并对个人用户免费。腾讯则迅速更新腾讯元器的API接
    华尔街科技眼 2025-05-12 22:29 98浏览
  • 在印度与巴基斯坦的军事对峙情境下,歼10C的出色表现如同一颗投入平静湖面的巨石,激起层层涟漪,深刻印证了“质量大于数量”这一铁律。军事领域,技术优势就是决定胜负的关键钥匙。歼10C凭借先进的航电系统、强大的武器挂载能力以及卓越的机动性能,在战场上大放异彩。它能够精准捕捉目标,迅速发动攻击,以一敌多却毫不逊色。与之形成鲜明对比的是,单纯依靠数量堆砌的军事力量,在面对先进技术装备时,往往显得力不从心。这一现象绝非局限于军事范畴,在当今社会的各个领域,“质量大于数量”都已成为不可逆转的趋势。在科技行业
    curton 2025-05-11 19:09 233浏览
  • 感谢面包板论坛组织的本次测评活动,本次测评的对象是STM32WL Nucleo-64板 (NUCLEO-WL55JC) ,该测试板专为LoRa™应用原型构建,基于STM32WL系列sub-GHz无线微控制器。其性能、功耗及特性组合经过精心挑选,支持通过Arduino® Uno V3连接,并利用ST morpho接头扩展STM32WL Nucleo功能,便于访问多种专用屏蔽。STM32WL Nucleo-64板集成STLINK-V3E调试器与编程器,无需额外探测器。该板配备全面的STM
    无言的朝圣 2025-05-13 09:47 97浏览
  •   电磁数据展示系统平台解析   北京华盛恒辉电磁数据展示系统平台是实现电磁数据高效展示、分析与管理的综合性软件体系,以下从核心功能、技术特性、应用场景及发展趋势展开解读:   应用案例   目前,已有多个电磁数据展示系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据展示系统。这些成功案例为电磁数据展示系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与预处理   智能分析处理   集成频谱分析、时频变换等信号处理算法,自动提取时域频域特征;
    华盛恒辉l58ll334744 2025-05-13 10:20 270浏览
  •         信创产业含义的“信息技术应用创新”一词,最早公开信息见于2019年3月26日,在江苏南京召开的信息技术应用创新研讨会。本次大会主办单位为江苏省工业和信息化厅和中国电子工业标准化技术协会安全可靠工作委员会。        2019年5月16日,美国将华为列入实体清单,在未获得美国商务部许可的情况下,美国企业将无法向华为供应产品。       2019年6
    天涯书生 2025-05-11 10:41 192浏览
  • 【拆解】+CamFi卡菲单反无线传输器拆解 对于单反爱好者,想要通过远程控制自拍怎么办呢。一个远程连接,远程控制相机拍摄的工具再合适不过了。今天给大伙介绍的是CamFi卡菲单反无线传输器。 CamFi 是专为数码单反相机打造的无线传输控制器,自带的 WiFi 功能(无需手机流量),不但可通过手机、平板、电脑等设备远程连接操作单反相机进行拍摄,而且还可实时传输相机拍摄的照片到 iPad 和电视等大屏设备进行查看和分享。 CamFi 支持大部分佳能和尼康单反相机,内置可充电锂离子电池,无需相机供电。
    zhusx123 2025-05-11 14:14 338浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦