2025年,自动驾驶即将开“卷”的端到端大模型2.0-VLA(VisionLanguageAction)

原创 Vehicle 2024-12-22 21:00

太卷了,智能驾驶在国内的落地发展太迅速了,从体验功能端,大家开城大战打完了之后就进入点到点的落地战,点到点弄完了之后肯定Robotaxi大战;而在硬核的软件技术端,端到端大模型战在华为这个月宣布急攻端到端大模型的信息下,已经算是进入焦灼状态。

那么端到端大模型之后呢

或许最近不少苗头已经透露 VLM vision language model 具《智能驾驶技术演进与未来挑战:从目标物识别到大模型上车》体可以点击之前文章了解)之后的VLA (vision language action)会是2025年国内的自动驾驶行业全面宣传和竞争的重点,各家会开卷端到端大模型 2.0


VLA其实不但可以应用于自动驾驶,它其实是自动驾驶车辆的大类 - 智能机器人,具身智能的基础,那么也可以理解为什么现在人行机器人产业。具身智能会火起来了,其实机器人比汽车更容易,机器人出问题可能不会有生命危险,但汽车出问题是会有生命危险,甚至公共安全的生命危险。

本文整理 VLA 相关论文以及其在汽车行业发展和应用信息,希望能大家一些科普和前瞻信息。

  • 什么是 VLA 模型?

  • VLA 有哪些优点?

  • 实验室里面的 VLA 有哪些进展?

  • 落地应用 VLA 有哪些挑战?

  • 目前有哪些车企在布局?

  • VLA会是自动驾驶最终的归宿吗?

什么是 VLA 模型

首先,我们先回顾视觉语言模型 (VLM), 它是一种机器学习模型,可以处理视觉信息和自然语言。它们将一张或多张图像作为输入,并生成一系列标记,这些标记通常表示自然语言文本。

VLM 的奇妙之处是在人类智慧结晶互联网上的图像和文本数据上进行训练的,VLM 类似于三体中的智子,吸收了人类语言文字的智慧,能看懂和推理图片内容

而 VLA 模型,就是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练这些现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。

这些经过进一步训练的 VLM 被称为视觉-语言-动作 (VLA) 模型。通过结合视觉和语言处理,VLA 模型可以解释复杂的指令并在物理世界中执行动作

上面Google Deepmind RT-2的图片,非常好的图像化解释VLA,VLA(RT-2) = VLM + 机器运动数据(RT-1)。

VLA 有哪些优点
首先,VLA是一个端到端大模型,所以大模型该有的优点,他都有。
另外,从视觉到执行,类似可推理性,可解释性都有非常大的优势,这个可以查看之前文章了解《采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA》。
其次,它具有通用型,未来所有“智能机器设备”都可以统一采用这套大模型算法,通过微调可以实现,不管是汽车,飞行设备,乃至任何智能机器人都可以通用。
所以这就是为什么可以看到现在的新势力,上天下地,机器人都搞的原因,他们明白通用AI可以加任何机械设备从而变成人工智能设备,实现phycial AI(也有人叫具身智能,我更愿意叫他phycial AI)而不是仅仅现在的digital AI
VLA这些通用系的模型在数据量、计算资源和模型复杂度的边界上表现出持续的性能提升,因为有了自然文字语言的人类智慧为底座,所以可以极大的减少重复的数据,计算资源,同时降低模型复杂度。
实验室里面的 VLA 有哪些进展
当前AI的催生,基本都来自于著名学术机构高校和知名公司的创新实验。
2023年7月28日,谷歌DeepMind推出了全球首个用于控制机器人的视觉语言动作(VLA)模型 RT-2 也就是上文解释 VLA 借用的那个图片。
RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 为基础,这些模型使用 DeepMinds 在开发 RT-1 模型期间收集的机器人轨迹数据进行微调。
该模型经过微调,通过将机器人动作表示为文本标记来输出机器人动作。这种独特的方法使模型能够从自然语言响应和机器人动作中学习,从而使其能够执行各种任务。
RT-2 模型的令人印象深刻的泛化能力。该模型在新的物体、背景和环境中表现出显著改善的性能。
它可以解释机器人训练数据中不存在的命令,并根据用户命令执行基本的推理。推理能力是底层语言模型采用思路链推理能力的结果。
该模型推理能力的例子包括弄清楚要拿起哪个物体用作临时锤子(一块石头),或者哪种饮料最适合疲惫的人(能量饮料)。这种程度的泛化是机器人控制领域的一大进步。
RT-2目前不是开源的,也就是大家无法基于他去创新和修改,但他的出现激励了当前智能机器人行业的发展,给了大家信心
另一个比较知名的是 OpenVLA 模型,它是由来自斯坦福大学、加州大学伯克利分校、谷歌 Deepmind 和丰田研究院的研究人员组成的团队发起。
他是一种基于 LLM/VLM 构建的视觉/语言动作模型,用于具身机器人和行为学习(此基础模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM)。
OpenVLA 模型不是使用图像字幕或视觉问答,而是根据用于控制机器人的摄像头图像和自然语言指令生成动作标记。
动作标记是从文本标记器词汇表中保留的离散标记 ID,这些标记映射到连续值,并根据每个机器人的运动范围进行归一化。
通过微调预训练的Prismatic-7B VLM 来训练 OpenVLA 。模型由三个关键元素组成:
  • 融合视觉编码器一般也叫ViT(Vision transformer),由 SigLIP 和 DinoV2 主干组成,其中DinoV2主要是为了增加对于空间的理解,将图像输入映射到多个“图像块嵌入”,可以简单理解将视觉编码成语言。
  • 投影仪MLP Projector,这个组件可以获取视觉编码器的输出嵌入并将其映射到大型语言模型的输入空间,可以理解为这是个中间人,他能将编码的语言和大语言模型对接上。
  • Llama 2 7B作为语言模型的主干,根据对接上的信息,预测标记化的输出动作。这些标记被解码为可直接在机器人上执行的连续输出动作。
OpenVLA 是开源的,目前不少公司应该都基于他在进行研究,来找VLA应用和商业落地的方法
以上两个为影响比较大的,除了上面 VLA 还有不少其他的例如 Umass的3D-VLA,美的集团的Tiny-VLA等等。
落地应用 VLA 有哪些挑战
VLA 那么好,是不是立马可以在生活和商用中用起来?其实上面RT-2/Open VLA基本上和大模型一样都是上Billions十亿的参数。
模型大,需要边缘算力大,就拿Open VLA 的7B 的参数模型来看,推理过程中速度很慢,需要对大量机器人数据进行大量预训练,这使得实际部署变得困难。
所以,实时运行大型 VLA 模型的计算成本很高,需要进行更多研究来优化其推理速度
此外,目前可用于微调的开源 VLM 模型有限
未来的研究应侧重于开发实现更高频率控制的技术,并使更多 VLM 模型可用于训练 VLA 模型。
Phycical AI 需要与人类世界互动,那么实时高频精准的运动是必须的,机器人可能要求的响应可以低,但一般可用的都需要达到以 30-50 Hz 运行的执行;而汽车智能汽车的电控底盘一般的执行响应都达到100Hz。所以,这里还有很长的路要走。
最后,其实 VLA 应用的难点还有匹配语言描述和驾驶行为或者机器人动作的训练
目前VLA 模型应用于自动驾驶的一个主要障碍是缺乏能够有效结合视觉数据与语言描述和驾驶行为的大规模数据集。
现有数据集往往在规模和全面注释方面存在不足,尤其是对于语言,这通常需要费力的人工操作。这限制了能够处理现实世界驾驶复杂性的稳健 VLA 模型的开发和评估。
所以这些都是目前 VLA 工程落地,需要攻克的问题。
目前有哪些车企在布局?
目前准确来讲,应用VLA的应该屈指可数,甚至没有,但大批车企以及自动驾驶企业布局中。
我们之前文章《采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA》中讲到的EMMA,就是Waymo内部团队在创新和测试探索的 VLA。
国外的创业公司Wayve,他的主要投资方是微软和软银,走的是提供L4软件算法的路线,目前测试车队已经从欧洲扩展到北美,与Uber达成合作协议,未来可能进入Uber平台。
他在开始就站位采用通用人工智能来解决自动驾驶,所以可以看到之前就采用LLM,之后采用VLM,目前有消息其正在采用类似于VLA的模型。
国内,元戎启行在上个月宣布下一步计划使用VLA,计划在英伟达Thor芯片上进行开发,不过Thor推迟到明年年中量产,高性能Thor估计年底,所以估计中国的VLA大概率在明年中旬声量巨大,一起卷。
另外,就是理想,这个我们之前文章《智能驾驶技术演进与未来挑战:从目标物识别到大模型上车》中讲过理想在上半年就开始推进VLM,现在其车上智驾已经采用VLM,那么接下来肯定是朝着VLA进发。
小鹏,目前没有信息,但是看小鹏科技产品的布局,从机器人,汽车到飞行基本上也赌的是人工智能,如果不走通用人工智能的方向,那么显然战略失误,所以估计在研发中或者布局中。
华为,比较特殊,有自己的闭环和中国特色发展,其200TOPs的MDC显然在规则化,小模型的算法方面做的是一流,车辆运动控制遥遥领先,但最近估计也是感觉端到端是未来,这个月的动态显示其急攻一段式端到端,那么估计其应用VLA也不会很长。
至于,蔚来汽车昨天搞了NIO Day发布了一大堆东西,由于没有邀请我,我得说说蔚来的问题了,开玩笑,蔚来一直是我喜爱而且认为有格局和格调的品牌,但蔚来有点不像新势力了,他反过头来在追随传统汽车的末日黄昏,蔚来在硬件端是在准备,但是在智能驾驶软件端,目前缺少相关信息。
VLA 会是自动驾驶最终的归宿吗
很难说,不过,自动驾驶采用AI的大方向是既定的,但是AI的发展太迅猛了,从采用CNN识别物体到Transformer BEV 构建时空关系应用大概也就是几年,但从端到端大模型演化到采用通用人工智能的VLM却是一年之内。
那么对应的从文字LLM 到视觉的VLM再到未来是不是空间Spatial 人工智能的大力发展?AI 还是一个快速发展的小孩,都有可能!

*未经准许严禁转载和摘录-参考资料:

  1. 2024_Kira_ECCV_FOCUS.pdf - 

  2. Google deepmind RT-2 .pdf - Anthony Brohan, Noah Brown等

  3. OPEN VLA .pdf - Moo Jin Kim∗,1 Karl Pertsch∗等

  4. 2024-IB-Introduction-Embodied-AI-Wayve.pdf

加入我们的知识星球可以下载包含以上参考资料的公众号海量参考资料


>>>>

相关推荐

  • 采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA
  • 智能驾驶技术演进与未来挑战:从目标物识别到大模型上车
  • 被逼墙角的Mobileye,祭出 CAIS 大旗,挑战端到端大模型智能驾驶
  • 欧盟加征关税下的中国汽车出海
  • AI 巨头 Nvidia 英伟达在汽车领域做什么?




Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论 (0)
  • 本文内容来自微信公众号【工程师进阶笔记】,以工程师的第一视角分析了飞凌嵌入式OK3506J-S开发板的产品优势,感谢原作者温老师的专业分享。前两周,有一位老朋友联系我,他想找人开发一款数据采集器,用来采集工业现场的设备数据,并且可以根据不同的业务场景,通过不同的接口把这些数据分发出去。我把他提的需求总结了一下,这款产品方案大概有以下功能接口,妥妥地一款工业网关,在网上也能找到很多类似的产品方案,为啥他不直接买来用?再跟朋友深入地聊了一下,他之所以联系我,是因为看到我在公众号介绍过一款由飞凌嵌入式
    飞凌嵌入式 2025-03-20 11:51 125浏览
  • 为有效降低人为疏失导致交通事故发生的发生率,各大汽车制造厂及系统厂近年来持续开发「先进驾驶辅助系统」ADAS, Advanced Driver Assistance Systems。在众多车辆安全辅助系统之中,「紧急刹车辅助系统」功能(AEB, Autonomous Emergency Braking)对于行车安全性的提升便有着相当大的帮助。AEB透过镜头影像模块与毫米波雷达感测前方目标,可在发生碰撞前警示或自动刹车以降低车辆损伤以及乘员伤害。面临的挑战以本次分享的客户个案为例,该车厂客户预计在
    百佳泰测试实验室 2025-03-20 15:07 105浏览
  •         在当今电子设备高度集成的时代,电路保护显得尤为重要。TVS管(瞬态电压抑制二极管)和压敏电阻作为一种高效的电路保护器件,被广泛应用于各种电子设备中,用以吸收突波,抑制瞬态过电压,从而保护后续电路免受损坏。而箝位电压,作为TVS管和压敏电阻的核心参数之一,直接关系到其保护性能的优劣。箝位电压的定义        箝位电压指瞬态保护器件(如TVS二极管、压敏电阻)在遭遇过压时,将电路电压限制在安全范围内的
    广电计量 2025-03-20 14:05 97浏览
  • 贞光科技代理的品牌-光颉科技高精密薄膜电阻凭借0.01%的超高精度,在AI服务器电源模块中实现了精确电压分配、优化功率因数和减少热损耗,显著提升系统能效和可靠性。在当今的数字时代,人工智能(AI)服务器已成为数据中心的核心。随着AI应用的激增,服务器的性能和能效需求也在不断提高。电源模块作为服务器的关键组件,其性能直接影响整个系统的效率和可靠性。本文将探讨光颉科技高精密薄膜电阻,特别是其0.01%的精度,如何在AI服务器电源模块中提升能效。电源模块在AI服务器中的重要性电源模块负责将输入电源转换
    贞光科技 2025-03-20 16:55 160浏览
  • 流感季急诊室外彻夜排起的长队,手机屏幕里不断闪烁的重症数据,深夜此起彼伏的剧烈咳嗽声——当病毒以更狡猾的姿态席卷全球,守护健康的战争早已从医院前移到每个人的身上。在医学界公认的「72小时黄金预警期」里,可穿戴设备闪烁的光芒正穿透皮肤组织,持续捕捉血氧浓度、心率变异性和体温波动数据。这不是科幻电影的末日警报,而是光电传感器发出的生命预警,当体温监测精度精确到±0.0℃,当动态血氧检测突破运动伪影干扰……科技正在重新定义健康监护的时空边界。从智能手表到耳机,再到智能戒指和智能衣物,这些小巧的设备通过
    艾迈斯欧司朗 2025-03-20 15:45 174浏览
  • PCIe 5.0应用环境逐步成形,潜在风险却蠢蠢欲动?随着人工智能、云端运算蓬勃发展,系统对于高速数据传输的需求不断上升,PCI Express(PCIe)成为服务器应用最广的传输技术,尤其在高效能运算HPC(High Performance Computing)及AI服务器几乎皆导入了最新的PCIe 5.0规格,使得数据传输的双向吞吐量达到了128GB/s,让这两类的服务器能够发挥最大的效能。不过随着PCIe 5.0的频率达到16GHz,PCB板因为高频而导致讯号衰减加剧的特性,使得厂商面临很
    百佳泰测试实验室 2025-03-20 13:47 105浏览
  • 近日,保定飞凌嵌入式技术有限公司(以下简称“飞凌嵌入式”)携手瑞芯微电子股份有限公司(以下简称“瑞芯微”)正式加入2025年全国大学生嵌入式芯片与系统设计竞赛(以下简称“嵌入式大赛”),并在应用赛道中设立专属赛题。本次嵌入式大赛,双方选用基于瑞芯微RK3588芯片设计的ELF 2开发板作为参赛平台,旨在通过此次合作,促进产教融合,共同推动嵌入式系统创新人才的培养。全国大学生嵌入式芯片与系统设计竞赛是一项A类电子设计竞赛,同时也是被教育部列入白名单的赛事,由中国电子学会主办,是学生保研、求职的公认
    飞凌嵌入式 2025-03-20 11:53 88浏览
  • 4月8-11日,第91届中国国际医疗器械博览会(CMEF)将在国家会展中心(上海)举办。这场全球瞩目的医疗科技盛宴以“创新科技,智领未来”为主题,旨在全方位展示医疗科技的最新成果,与来自全球的行业同仁一道,为全球医疗健康领域带来一场科技与商贸交融的产业“盛宴”。飞凌嵌入式作为专业的嵌入式技术解决方案提供商,一直致力于为医疗器械行业提供丰富的、高可靠性的嵌入式硬件主控解决方案。届时,飞凌嵌入式将为来自全球的观众带来适用于IVD、医疗影像、生命体征监测等医疗设备的嵌入式板卡、显控一体屏产品以及多款动
    飞凌嵌入式 2025-03-20 11:46 39浏览
  • 如同任何对我们工作方式的改变,新的工作方式必然会遇到许多必须面对的挑战。如果不解决组织在实施精益六西格玛过程中面临的障碍以及如何克服它们的问题,那么关于精益六西格玛的讨论就不算完整。以下列举了组织在成功实施精益六西格玛时常见的几个障碍,以及克服它们的方法:1)对精益六西格玛方法论缺乏理解。抵触情绪通常源于对精益六西格玛方法论的不了解,以及不相信它能真正发挥作用。这种情况在所有层级的人员中都会出现,包括管理层。虽然教育培训可以帮助改善这一问题,但成功的项目往往是打消疑虑的最佳方式。归根结底,这是一
    优思学院 2025-03-20 12:35 107浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,凭借AS1163独立智能驱动器(SAID)成为中国领先的智能集成系统产品汽车制造商宁波福尔达智能科技股份有限公司(“福尔达”)环境动态照明应用的关键供应商。此次合作标志着汽车技术发展的一个重要时刻,充分展现了AS1163在优化动态照明应用系统成本方面的多功能性和先进性能。该产品支持传感器集成,拥有专为车顶照明设计的超薄外形,并能提升车内照明系统的性能。AS1163是一款先进的智能LED驱动器,能够与开放系统协议(OSP)网络无缝
    艾迈斯欧司朗 2025-03-20 14:26 102浏览
  • 家电“以旧换新”政策的覆盖范围已从传统的八大类家电(冰箱、洗衣机、电视、空调、电脑、热水器、家用灶具、吸油烟机)扩展至各地根据本地特色和需求定制的“8+N”新品类。这一政策的补贴再叠加各大电商平台的优惠,家电销售规模显著增长,消费潜力得到进一步释放。晶尊微方案为升级换代的智能家电提供了高效且稳定的触摸感应和水位检测功能,使得操作更加便捷和可靠!主要体现在:水位检测1健康家电:养生壶、温奶器、加湿器的缺水保护安全2清洁电器:洗地机、扫地机器人的低液位和溢液提醒3宠物家电:宠物饮水机的缺水提醒/满水
    ICMAN 2025-03-20 15:23 151浏览
  • 故障现象 一辆2024款路虎发现运动版车,搭载2.0 L发动机,累计行驶里程约为5 000 km。车主反映,使用遥控器无法解锁车门,随后使用机械钥匙打开车门,踩下制动踏板,按压起动按钮,仪表盘提示“将智能钥匙放在图示位置,然后按下起动按钮”(图1)。 图1 故障车的仪表盘提示采用上述应急起动方法,发动机能够起动着机。上述故障现象已出现过多次,过一段时间又会恢复正常,这次故障出现要求将车辆拖入店内进行彻底检修。 故障诊断 车辆进店后进行试车,车辆一切功能又恢复正常。经过反复测试
    虹科Pico汽车示波器 2025-03-20 10:17 84浏览
  • 在人工智能与物联网技术深度融合的今天,离线语音识别技术凭借其隐私安全、即时响应等优势,正在智能家居、工业控制等领域快速普及。广州唯创电子推出的WTK6900系列语音识别芯片,凭借其创新的离线命令词自学习功能,为用户提供了灵活高效的语音交互解决方案。本文将深入解析这一核心技术的工作原理及操作流程。一、智能自学习功能概述WTK6900系列芯片支持多模态学习方式,用户可通过物理按键、串口指令、语音命令或专用APP启动学习流程。其核心技术突破在于:全离线运行:所有学习过程均在本地完成,无需网络传输动态模
    广州唯创电子 2025-03-20 08:54 174浏览
  • 在电子制造领域,PCB(印刷电路板)的使用寿命直接决定了产品的长期稳定性和可靠性。捷多邦作为全球领先的PCB制造商,始终将质量放在首位,致力于为客户提供高可靠性、高性能的PCB解决方案。以下是捷多邦如何确保PCB使用寿命超过20年的核心技术与优势。 1. ​高品质原材料:从源头保障耐用性捷多邦采用国际认证的优质基材,如FR4、高频材料和高TG板材,确保PCB在高温、高湿等极端环境下的稳定性。通过严格的原材料筛选和入库检验,捷多邦从源头控制质量,避免因材料缺陷导致的失效问题。 
    捷多邦 2025-03-20 11:22 100浏览
我要评论
0
2
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦