2025年,自动驾驶即将开“卷”的端到端大模型2.0-VLA(VisionLanguageAction)

原创 Vehicle 2024-12-22 21:00

太卷了,智能驾驶在国内的落地发展太迅速了,从体验功能端,大家开城大战打完了之后就进入点到点的落地战,点到点弄完了之后肯定Robotaxi大战;而在硬核的软件技术端,端到端大模型战在华为这个月宣布急攻端到端大模型的信息下,已经算是进入焦灼状态。

那么端到端大模型之后呢

或许最近不少苗头已经透露 VLM vision language model 具《智能驾驶技术演进与未来挑战:从目标物识别到大模型上车》体可以点击之前文章了解)之后的VLA (vision language action)会是2025年国内的自动驾驶行业全面宣传和竞争的重点,各家会开卷端到端大模型 2.0


VLA其实不但可以应用于自动驾驶,它其实是自动驾驶车辆的大类 - 智能机器人,具身智能的基础,那么也可以理解为什么现在人行机器人产业。具身智能会火起来了,其实机器人比汽车更容易,机器人出问题可能不会有生命危险,但汽车出问题是会有生命危险,甚至公共安全的生命危险。

本文整理 VLA 相关论文以及其在汽车行业发展和应用信息,希望能大家一些科普和前瞻信息。

  • 什么是 VLA 模型?

  • VLA 有哪些优点?

  • 实验室里面的 VLA 有哪些进展?

  • 落地应用 VLA 有哪些挑战?

  • 目前有哪些车企在布局?

  • VLA会是自动驾驶最终的归宿吗?

什么是 VLA 模型

首先,我们先回顾视觉语言模型 (VLM), 它是一种机器学习模型,可以处理视觉信息和自然语言。它们将一张或多张图像作为输入,并生成一系列标记,这些标记通常表示自然语言文本。

VLM 的奇妙之处是在人类智慧结晶互联网上的图像和文本数据上进行训练的,VLM 类似于三体中的智子,吸收了人类语言文字的智慧,能看懂和推理图片内容

而 VLA 模型,就是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练这些现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。

这些经过进一步训练的 VLM 被称为视觉-语言-动作 (VLA) 模型。通过结合视觉和语言处理,VLA 模型可以解释复杂的指令并在物理世界中执行动作

上面Google Deepmind RT-2的图片,非常好的图像化解释VLA,VLA(RT-2) = VLM + 机器运动数据(RT-1)。

VLA 有哪些优点
首先,VLA是一个端到端大模型,所以大模型该有的优点,他都有。
另外,从视觉到执行,类似可推理性,可解释性都有非常大的优势,这个可以查看之前文章了解《采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA》。
其次,它具有通用型,未来所有“智能机器设备”都可以统一采用这套大模型算法,通过微调可以实现,不管是汽车,飞行设备,乃至任何智能机器人都可以通用。
所以这就是为什么可以看到现在的新势力,上天下地,机器人都搞的原因,他们明白通用AI可以加任何机械设备从而变成人工智能设备,实现phycial AI(也有人叫具身智能,我更愿意叫他phycial AI)而不是仅仅现在的digital AI
VLA这些通用系的模型在数据量、计算资源和模型复杂度的边界上表现出持续的性能提升,因为有了自然文字语言的人类智慧为底座,所以可以极大的减少重复的数据,计算资源,同时降低模型复杂度。
实验室里面的 VLA 有哪些进展
当前AI的催生,基本都来自于著名学术机构高校和知名公司的创新实验。
2023年7月28日,谷歌DeepMind推出了全球首个用于控制机器人的视觉语言动作(VLA)模型 RT-2 也就是上文解释 VLA 借用的那个图片。
RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 为基础,这些模型使用 DeepMinds 在开发 RT-1 模型期间收集的机器人轨迹数据进行微调。
该模型经过微调,通过将机器人动作表示为文本标记来输出机器人动作。这种独特的方法使模型能够从自然语言响应和机器人动作中学习,从而使其能够执行各种任务。
RT-2 模型的令人印象深刻的泛化能力。该模型在新的物体、背景和环境中表现出显著改善的性能。
它可以解释机器人训练数据中不存在的命令,并根据用户命令执行基本的推理。推理能力是底层语言模型采用思路链推理能力的结果。
该模型推理能力的例子包括弄清楚要拿起哪个物体用作临时锤子(一块石头),或者哪种饮料最适合疲惫的人(能量饮料)。这种程度的泛化是机器人控制领域的一大进步。
RT-2目前不是开源的,也就是大家无法基于他去创新和修改,但他的出现激励了当前智能机器人行业的发展,给了大家信心
另一个比较知名的是 OpenVLA 模型,它是由来自斯坦福大学、加州大学伯克利分校、谷歌 Deepmind 和丰田研究院的研究人员组成的团队发起。
他是一种基于 LLM/VLM 构建的视觉/语言动作模型,用于具身机器人和行为学习(此基础模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM)。
OpenVLA 模型不是使用图像字幕或视觉问答,而是根据用于控制机器人的摄像头图像和自然语言指令生成动作标记。
动作标记是从文本标记器词汇表中保留的离散标记 ID,这些标记映射到连续值,并根据每个机器人的运动范围进行归一化。
通过微调预训练的Prismatic-7B VLM 来训练 OpenVLA 。模型由三个关键元素组成:
  • 融合视觉编码器一般也叫ViT(Vision transformer),由 SigLIP 和 DinoV2 主干组成,其中DinoV2主要是为了增加对于空间的理解,将图像输入映射到多个“图像块嵌入”,可以简单理解将视觉编码成语言。
  • 投影仪MLP Projector,这个组件可以获取视觉编码器的输出嵌入并将其映射到大型语言模型的输入空间,可以理解为这是个中间人,他能将编码的语言和大语言模型对接上。
  • Llama 2 7B作为语言模型的主干,根据对接上的信息,预测标记化的输出动作。这些标记被解码为可直接在机器人上执行的连续输出动作。
OpenVLA 是开源的,目前不少公司应该都基于他在进行研究,来找VLA应用和商业落地的方法
以上两个为影响比较大的,除了上面 VLA 还有不少其他的例如 Umass的3D-VLA,美的集团的Tiny-VLA等等。
落地应用 VLA 有哪些挑战
VLA 那么好,是不是立马可以在生活和商用中用起来?其实上面RT-2/Open VLA基本上和大模型一样都是上Billions十亿的参数。
模型大,需要边缘算力大,就拿Open VLA 的7B 的参数模型来看,推理过程中速度很慢,需要对大量机器人数据进行大量预训练,这使得实际部署变得困难。
所以,实时运行大型 VLA 模型的计算成本很高,需要进行更多研究来优化其推理速度
此外,目前可用于微调的开源 VLM 模型有限
未来的研究应侧重于开发实现更高频率控制的技术,并使更多 VLM 模型可用于训练 VLA 模型。
Phycical AI 需要与人类世界互动,那么实时高频精准的运动是必须的,机器人可能要求的响应可以低,但一般可用的都需要达到以 30-50 Hz 运行的执行;而汽车智能汽车的电控底盘一般的执行响应都达到100Hz。所以,这里还有很长的路要走。
最后,其实 VLA 应用的难点还有匹配语言描述和驾驶行为或者机器人动作的训练
目前VLA 模型应用于自动驾驶的一个主要障碍是缺乏能够有效结合视觉数据与语言描述和驾驶行为的大规模数据集。
现有数据集往往在规模和全面注释方面存在不足,尤其是对于语言,这通常需要费力的人工操作。这限制了能够处理现实世界驾驶复杂性的稳健 VLA 模型的开发和评估。
所以这些都是目前 VLA 工程落地,需要攻克的问题。
目前有哪些车企在布局?
目前准确来讲,应用VLA的应该屈指可数,甚至没有,但大批车企以及自动驾驶企业布局中。
我们之前文章《采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA》中讲到的EMMA,就是Waymo内部团队在创新和测试探索的 VLA。
国外的创业公司Wayve,他的主要投资方是微软和软银,走的是提供L4软件算法的路线,目前测试车队已经从欧洲扩展到北美,与Uber达成合作协议,未来可能进入Uber平台。
他在开始就站位采用通用人工智能来解决自动驾驶,所以可以看到之前就采用LLM,之后采用VLM,目前有消息其正在采用类似于VLA的模型。
国内,元戎启行在上个月宣布下一步计划使用VLA,计划在英伟达Thor芯片上进行开发,不过Thor推迟到明年年中量产,高性能Thor估计年底,所以估计中国的VLA大概率在明年中旬声量巨大,一起卷。
另外,就是理想,这个我们之前文章《智能驾驶技术演进与未来挑战:从目标物识别到大模型上车》中讲过理想在上半年就开始推进VLM,现在其车上智驾已经采用VLM,那么接下来肯定是朝着VLA进发。
小鹏,目前没有信息,但是看小鹏科技产品的布局,从机器人,汽车到飞行基本上也赌的是人工智能,如果不走通用人工智能的方向,那么显然战略失误,所以估计在研发中或者布局中。
华为,比较特殊,有自己的闭环和中国特色发展,其200TOPs的MDC显然在规则化,小模型的算法方面做的是一流,车辆运动控制遥遥领先,但最近估计也是感觉端到端是未来,这个月的动态显示其急攻一段式端到端,那么估计其应用VLA也不会很长。
至于,蔚来汽车昨天搞了NIO Day发布了一大堆东西,由于没有邀请我,我得说说蔚来的问题了,开玩笑,蔚来一直是我喜爱而且认为有格局和格调的品牌,但蔚来有点不像新势力了,他反过头来在追随传统汽车的末日黄昏,蔚来在硬件端是在准备,但是在智能驾驶软件端,目前缺少相关信息。
VLA 会是自动驾驶最终的归宿吗
很难说,不过,自动驾驶采用AI的大方向是既定的,但是AI的发展太迅猛了,从采用CNN识别物体到Transformer BEV 构建时空关系应用大概也就是几年,但从端到端大模型演化到采用通用人工智能的VLM却是一年之内。
那么对应的从文字LLM 到视觉的VLM再到未来是不是空间Spatial 人工智能的大力发展?AI 还是一个快速发展的小孩,都有可能!

*未经准许严禁转载和摘录-参考资料:

  1. 2024_Kira_ECCV_FOCUS.pdf - 

  2. Google deepmind RT-2 .pdf - Anthony Brohan, Noah Brown等

  3. OPEN VLA .pdf - Moo Jin Kim∗,1 Karl Pertsch∗等

  4. 2024-IB-Introduction-Embodied-AI-Wayve.pdf

加入我们的知识星球可以下载包含以上参考资料的公众号海量参考资料


>>>>

相关推荐

  • 采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA
  • 智能驾驶技术演进与未来挑战:从目标物识别到大模型上车
  • 被逼墙角的Mobileye,祭出 CAIS 大旗,挑战端到端大模型智能驾驶
  • 欧盟加征关税下的中国汽车出海
  • AI 巨头 Nvidia 英伟达在汽车领域做什么?




Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 93浏览
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 73浏览
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 113浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 84浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 112浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 168浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 99浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 60浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 121浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 146浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 87浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 72浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 89浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦