理想用「端到端+VLM」,跑赢了互联网上的嘴

焉知新能源汽车 2024-11-27 21:06

你有没有发现一个细节,为啥 自动驾驶行业 里讲端到端,就是端到端,而理想在讲端到端的时候讲的是「端到端 + VLM」。

那问题来了,到底你的端到端是端到端,还是理想的「端到端+VLM」是端到端呢?

坦率来讲,这个问题非常复杂,别说我们一期视频,甚至我们在用几期也很难解释清楚这个复杂的工程问题。

但我们依然希望用一些简单的方式,表述清楚这个复杂的逻辑。

那在讲端到端之前,我们来回顾一下「规则」框架下的系统逻辑。

自动驾驶一般分为感知、预测、规划和控制四大基础模块,各个模块各司其职、分工明确,并且这几个模块之间的信息是递进关系,看了这个图可能更好理解一些。

首先是利用传感器感知到信息,在融合了地图信息之后,会生成一个结果,给到规划模块,然后规划模块按照感知给的结果,生成一个可通行路径给到「控制」,然后工程师利用控制算法输出车辆的驾驶指令。

到这一步,其实还比较好理解,这是个系统运行的逻辑,当然,这里我们不用去展开每个模块具体的算法结构,我们需要知道另一个问题。

这种技术框架为什么会有局限性,甚至到现在要用端到端去改变呢?

这里面我们可以看到的是,系统的每个模块相互独立,又相互递进,这就产生了一个问题,每个模块所传递到下一个模块的信息会有损。

如果你看综艺节目的话,肯定看过一个叫「传声筒」的游戏,一般游戏是多个人组成,第一个人看到一组词,比如是「我开车去了动物园」第一个人通过比划给第二个人,第二个人再比划给第三个人,以此类推最后第 10 个人猜出的答案可能和题目是天差地别的,比如「我养了七只猴」。

你可以简单吧这个游戏的信息传递理解成规则算法下信息的传递,事实上到了最后信息的损失是比较多的,那你就很难基于一个不准确、不完整的信息,然后给出一个正确的答案。

所谓的规则,其实是基于少量自动化算法下,大量依靠工程师手动编码给出规则指令的技术框架。

缺点是需要大量的人力去编码,成本高 以及 在面对新情况的时候,需要人工添加新的规则来应对新变化,它的灵活性较差。

可能有小伙伴要问了,如果说前面各个模块比较复杂,那么把它们都去掉不就好了嘛?

哎,端到端就是这么做的。

端到端技术框架,就是把中间复杂的模块用一个「大模型」架构去融合,由传感器把信息送到模型里,再由模型直接给出答案,而这个答案可以直接被使用。

其实你就这么理解,还是「传声筒」游戏,只不过现在变成了,「我开车去动物园」这几个字被前 9 个人各自知道了一个字或两个字,现在让这 9 个人去了一个小黑屋,他们讨论了半个小时后出来,派了一个代表把这个比划给了第 10 个人。

那你想,最后这个人的得到的信息是不是最接近真实的。

这就是 端到端 技术框架的逻辑,优点是简化了人为规则后,泛化更强了,同时由于感知信息的无损传递,系统得到的答案更加接近真实答案,所以系统的控制执行也更加细腻丝滑,这就是大家经常讲的「像人」一样开车。

但你有没有发现理想的端到端,哎,它不一样,多出一个「VLM」。

前面我们说了 端到端 的优点,现在就要说一下端到端的缺点了,端到端是一个逻辑描述,技术上正确描述应该是:大语言模型在自动驾驶上的应用,这就回归到了正统人工智能界。

我们知道端到端是直接把传感器的信息丢到模型里,然后模型给出结果。

可是在人工智能界,现在的难点是 大家并不知道这些信息在模型里究竟是怎么工作的。

这就好比前面那 9 个人进到小黑屋商量,可是我们完全不知道这几个人怎么商量的,互相说了什么。

所以到了自动驾驶系统里也是一样,我们知道端到端输出的轨迹、障碍物等都更加准确了,但就是不知道它怎么做到的,所以为了驾驶安全、合理,系统需要更加精准的理解场景内的各种信息。

我们需要帮助系统更好的做场景理解,所以理想的架构才有了 VLM 这个模块。

VLM 中文名称为:视觉语言大模型。

这并不是一个新的算法技术,但在自动驾驶上的应用却很新。

虽然它叫视觉语言大模型,但它可以输入其他模态的数据进行模型训练,也就是不管是 视频、文本、图片、或者鬼画符 之类的信息都可以丢到模型内供模型训练。

所以我们看框架图可以理解,理想的传感器感知到的信息不仅直接给到端到端模型,也会给到 VLM 模型,而且 VLM 模型里就是用问答的方式,让模型描述出看到图像里有什么?

比如这张图里,有没有车道线、有几个水马、有几个装桶等,同时 VLM 也可以基于互联网海量的图像、文本数据来训练这个模型。

反正就是 一顿操作猛如虎 之后,VLM 也有一个答案会给到端到端模型,而且端到端模型就相当于融合了本来传感器的信息,又有了很多互联网图像、文本信息,最终经过各种比对、自行比划得出了一个最接近正确答案的结果。

这也是理想快慢双系统的基本逻辑,好处非常简单,就是可以增加系统对场景的理解,同时理想模型的迭代也会变快。

显然,技术不会像我们描述的这样简单,这里面各个复杂的工程问题其实都没有具体展开,因为对于大部分用户而言,我们需要的是这台系统 好用、安全。

 

焉知新能源汽车 新能源科技、智车科技
评论
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 172浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 166浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 67浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 63浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 55浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 86浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 121浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 53浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 168浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 57浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 54浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 36浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 45浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦