如果相信靠「端到端」就能实现L4,那么你该改行了。

原创 焉知新能源汽车 2024-06-13 22:14

去年年底马斯克的 FSD V12 全球直播,重新训练的系统完全没有给这位科技顶流一点面子。

在全球观众的见证下,特斯拉试图闯一次阵仗最大的红灯,来告诉所有人:端到端自动驾驶,其实没有那么容易

「是技术进步,还是一意孤行」,在一个传统分模块的技术栈面前显而易见的 Bug 出现了之后,也就有了讨论的空间。

但是,好在 FSD V12 并没有停滞不前,这些讨论并不会传到技术开拓者的耳朵里。

FSD V12.3 发布,马斯克宣布北美车主可以试用一个月。

事情开始发生变化,由「端到端是一条死路」,变成了「路况还是简单,有本事到国内来试试」。

进入 2024 年,国内厂商突然然开始着手宣传端到端,各大厂商都有意无意地透露,自己正在这个方向上押重注。

  • 3 月 17 日,在汽车百人会上,二线智能驾驶厂商元戎启行突然宣布,元戎启行是国内第一家能够将端到端模型成功上车的人工智能企业;
  • 4 月 24 日 ADS 2.0 升级为乾崑 3.0,技术转向 GOD/PDP 网络全新架构,对外称是端到端架构;
  • 5 月 20 日,小鹏汽车举办了以「开启AI智驾时代」为主题的AI DAY发布会,宣布端到端大模型已经量产上车;
  • 5 月 22 日,传出消息,小米汽车原图森未来首席科学家王乃岩即将带领团队加入小米汽车,负责端到端自动驾驶团队,而王乃岩乐于表达,在知乎上也曾多次抨击端到端自动驾驶;

就像 2021 年 BEV 浪潮一样,各大厂商再次在自动驾驶路线上达成了一致。

那么什么是端到端自动驾驶,先进在何处,真的能帮助我们获得更好的自动驾驶体验吗?

01

什么是端到端自动驾驶

经典的自动驾驶系统有着相对统一的系统架构:

  • 探测(detection);
  • 跟踪(tracking);
  • 静态环境建图(mapping)
  • 高精地图定位;
  • 目标物轨迹预测
  • 本车轨迹规划;
  • 运动控制。

几乎所有的自动驾驶系统都离不开这些子系统,在常规的技术开发中,这些模块分别由不同的团队分担,各自负责自己模块的结果输出。

这样的好处是,每一个子系统都能够有足够好的可解释性,在开发时能够独立优化

与此同时,为了保证整体自动驾驶的性能,每一个模块都需要保证给出稳定的表现。

如果将这些系统简单分为两部分,可以是感知系统和规划控制系统:

其实最主要的特征是:感知得到结果之后,将结果传递给规划控制系统。

为了让系统表现足够好,其实暗含了两个条件:

  • 感知的结果足够正确
  • 规划控制获得的信息足够丰富

很遗憾,这两条都难以保证,为何?

规划控制所有从感知得到的信息,都是感知工程师基于现有的资源定义好的,这里的资源包括:标注的能力、获取相应数据的能力,甚至工程师们对驾驶的理解。

举一个非常简单的例子,一般来说我们开车时候发现前车打转向灯,我们会相对开始警觉,并且给前车足够的空间进入本车道,但是由于团队限于资源,并没有识别前车转向的信号。

这个「前车打开转向灯」的信息,对于规划控制来说,它就是丢失了。

「因此发现转向灯信号,并且提前做出反应」,这个策略就成了一个不可能完成的任务。

这就引出了模块化自动驾驶的弊端:信息的有损传递

下游任务得到的信息是不充分的,就相当于有两个驾驶员,其中主驾眼睛被蒙住,只负责操作;另一个坐在副驾驶,由他来告诉主驾驶前方发生了什么。

而信息的传递方式是两个驾驶员都能理解的,我们可以称之为:信息的显式表达

举个例子,驾驶的语境中前方目标的识别,就是高度抽象的显式表达,一辆车被抽象成、速度、位置、尺寸、加速度等。

这种表达是人为用经验抽象出来并且传递给下游。

但是「被误解是表达者的宿命」,人和人之间的信息传递一定是有损的,所以这种开车方式很难达到非常好的体验。

优秀的分模块系统就相当于两个驾驶员有了足够的驾驶默契,但是绝对不能与一个有足够驾驶经验的司机对比。

既然信息显示表达传递会有损耗,那该怎么做?

这里有个概念是:信息的隐式表达

我们常常看到一些论文提到 Feature 层,这是一些信息在神经网络中的某一层的特征表达,是在训练过程中,网络自行学到的重要信息。但是这些信息不是靠人为定义确定的,我们的经验并不能完全理解,但是神经网络能够理解,自动选择重要的信息。

回到自动驾驶语境中,那就是如果信息的表达是有损耗的,那么就不表达了,直接将用神经网络里的信号与下游对接起来。

这其实就是 CVPR 2023 年 Best Paper UniAD 的思路:分模块端到端

分模块端到端

模块与模块之间的信息传递不再是开发工程师能够直接阅读并且理解的内容,而是直接将几个模块连接起来,然后在训练中进行全局优化。

由此产生了区别于传统自动驾驶技术栈最重要的结构特征:全局可导并且可以全局训练

UniAD

这里我们简单看一下UniAD 的思路,从结构上看,如果不考虑各模块之间的连接,可能会认为这就是一个传统的大力飞砖,所有的模块都用 Transformer 进行改造的系统。因为依然可以很明显的看到 BEV freature 层、MapFormer(建图)、TrackFormer(跟踪)等模块。

但是,其实最重要的改进并不是如此,而是各个模块之间的连接方式,并不是像我们传统技术栈一样,用初级工程师甚至驾驶员完全能够理解的方式进行连接的,而是通过神经网络的方式进行连接。

当然由于开环评测方式(并不是实际运行结果,与环境并没有交互)过于单一。业内也有学者对其提出批评,认为由于 UniAD 主要在 Nuscenes 上进行开环评测,导致大部分的轨迹,模型只要输出合适的直行命令即可获得较好的结果,并且甚至还设计了一个新的模型,将感知结果完全丢失,只留下自车和周围车辆的轨迹,也能获得不错的结果。

VAD

这篇论文发表在 2023 年的 ECCV 上,相较于 UniAD ,摒弃了传统技术栈中的栅格化表征,对整个驾驶场景进行矢量化建模,同样与 UniAD 一致,VAD 基于统一的 Transformer 结构。

  • 动态目标信息由 Vectorized Motion Transformer 提取,实现动态目标检测和矢量化的轨迹预测;
  • 静态地图由 Vectorized Map Transformer 提取;
  • Planning Transformer 以隐式的动静态场景特征作为输入,并且获得相应的规划信息。

从结构来看,OCC 的模块被完全抛弃了。

对此论文中也有解释,OCC 的模块一定程度上作为后处理兜底的任务,具有较大的算力开销,而 VAD 选择在训练阶段引入更多约束,降低对后处理兜底的需求。

于此同时,VAD 也在 Carla(一种被学界广泛使用的自动驾驶模拟器)中进行了评测,也获得了非常好的结果。

从这两篇论文中我们不难看出,学界对于端到端自动驾驶的态度应该是可连接并且全局可以进行共同优化训练的端到端,而非一个完全的纯黑盒网络,还是从原有的自动驾驶技术栈进行改进而来,这实际上与大模型无关,也与 nWorld Model 也并没有产生实际的联系

那么既然定义清楚了,业内是否都有必要切换呢?切换的难度在什么地方?

02

端到端自动驾驶会带来什么

全局可导并且全局优化是端到端结构上的特点,这种特点能带来什么呢?

「Scaling Law」

这是一个非常流行的词汇,从 ChatGPT 3.5 横空出世,震惊之余人们总结出来的经验,通俗的说法即:数据驱动,大力出奇迹

这也是 OpenAI 奉为圭臬的开发准则,事实证明这条路确实能够产生出来目前最优秀的人工智能产品,ChatGPT4、Sora,都遵循这条规则。

而自动驾驶现有的技术栈每个模块之间是不可连接的,每个模块之间是靠人为和规则进行连接的,无法完全靠数据进行全局训练,那么 Scaling Rule 至少在目前在自动驾驶界是无效的。

而端到端自动驾驶在一定程度上就给了 Scaling Law 发挥的余地,这符合目前人工智能的大趋势。

在传统的技术栈解决问题上,不论多么复杂的 Corner Case 都需要工程师们,用非常抽象的方式将场景描述清楚,收集数据然后标注,解决问题,然后验证。

但是实际上场景浩如烟海,很多任务非常琐碎,以单点突破的方式几乎没有可能完全解决。

所以有些公司的场景待解决库里面会将重点的安全问题先处理,而小频率的体验问题会之后处理,而这些小频率的体验问题,可能就决定了,这个场景的处理是否类人。

例如,红绿灯前的减速度是否丝滑,是否是根据当时的车道线和交通参与者做的实时判断?

6 月 7 日,在上海人工智能实验室主办的端到端研讨会上,前段时间离职加入小米的消息引发广泛关注的王乃岩提出:

端到端可以将很琐碎的任务,用人类的驾驶习惯进行统一的监督,降低开发成本,与可解释的传统技术栈结合,可能可以带领我们走向 L4 甚至 L5。


03

端到端自动驾驶的难点

我们都知道神经网络是黑盒系统,目前其实也没有办法去控制神经网络内部发生了什么,而这天然与自动驾驶要求的安全性和可靠性相悖。

在传统的技术栈中,如果遇到了一个问题,是可以通过分模块的方式找到出问题的部分,例如感知层给的目标的位置不对、规划给的轨迹不好。

但是端到端系统这些方式就失效了。

更好的问题归因优化和验证系统迫在眉睫。

如何找到合适的数据

我们可以将同样基本是黑盒的感知系统推广到整个自动驾驶系统上。

以前感知如果出了问题应该怎么做,这里举一个非常典型的 Corner Case, 公交车上广告牌的人形图案,这个问题特斯拉、理想都爆出过误识别新闻。

应该如何解决这个问题?

挖掘足够的的公交车上广告牌的人形图案数据,扔给神经网络进行训练,不断优化感知系统,规划和控制部分可以保持不变。

那么再进一步,已经是端到端系统了,如果现在结果是车辆误刹。

那么问题的归因就成了一个巨大的问题,因为没有办法马上知道,是因为这个人形图案带来的 BUG,也就无法去对应寻找数据。

即使找到了对应的问题,寻找特定的数据也是巨大工程,需要在数据闭环系统中找到相似的人形公交视频和人类驾驶数据,再进入端到端系统进行训练。

那么新的问题又出现了,如何验证问题已经修复并且性能不回退呢?

如何验证端到端自动驾驶系统

我们知道传统的自动驾驶技术栈通过仿真虚拟进行大规模验证得出结论后,可以上车进行实车测试。

而这里最重要的区别是,仿真的验证。

在传统的技术栈中,可以将每个模块分开来验证的,感知和规划可以分别用数据在云上大规模验证,每个团队都会有一个数据库,每次新系统上线会将数据喂到新系统里面进行大规模验证。

这是之前的经验。

但是这里有两个问题:

  • 大部分团队的验证方式是开环验证,也就是并没有与环境产生任何交互,只验证输入和输出链路。
  • 大部分团队对感知的验证还无法用纯虚拟的方式进行,需要实车数据才可以完成。

而这与端到端自动驾驶是相悖的。

端到端驾驶系统在上车跑之前,必须要用虚拟的方式全局验证通过,否则上车跑通无异于天方夜谭。

那么就涉及到一个非常好的可以模拟所有感知输出的自动驾驶模拟器,而且能够在这个模拟器里面模仿所有的交通参与者的交互信息。

即为了保证系统在真实世界的安全性,我们需要在虚拟世界中将系统充分验证。

前文提到的 Carla 在一定程度上可以满足学界的需求,但是场景的单一和渲染的质量,离业界的要求依然想去甚远。

其实不难看到,端到端自动驾驶依然依赖原有的自动驾驶开发工具链,优秀的数据闭环工具用来收集数据,优秀的自动驾驶仿真系统用来验证,而这大部分团队几乎都没有。

从这个角度来看,端到端自动驾驶无法进行弯道超车

写在最后

虽然著名反 OpenAI 人工智能专家杨乐昆认为,現有的 LLM 尽管在自然语言处理、对话交互、文本创作等领域表现出色,但其仍只是一种「统计建模」技术。

通过学习数据中的统计规律来完成相关任务,本质上并非具备真正的「理解」和「推理」能力。

而这个理论似乎放在端到端自动驾驶上也成立,相似的是最近港大的著名学者马毅提出:如果相信只靠 Scaling Laws 能实现 AGI,你该改行了

那么似乎我们也可以说:如果相信只靠端到端就能实现 L5,那么你该改行了。

不过,我们目前看到最有希望的一条路已经摆在了我们面前,虽然这条路看不到是否能够通向终点,这条路似乎也没有那么简单,路上充满了很多不确定性,抵触的声音不绝于耳。

但是特斯拉已经向我们示范了这条路的巨大潜力。

所以,我们为什么不去尝试呢?

添加微信,找到我们



更多阅读



我们研究了特斯拉、毫末「自动驾驶算法」的秘密

Momenta CEO曹旭东:自动驾驶没有百亿美金公司,要么千亿美金、要么被收购或淘汰

2022,车载高规激光雷达量产元年

焉知新能源汽车 新能源科技、智车科技
评论
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 84浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 89浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 122浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 181浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 169浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 71浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 121浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 90浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 51浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 174浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 37浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 111浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 91浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 100浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦