2025年,自动驾驶即将开“卷”的端到端大模型2.0-VLA(VisionLanguageAction)

原创 Vehicle 2024-12-22 21:00

太卷了,智能驾驶在国内的落地发展太迅速了,从体验功能端,大家开城大战打完了之后就进入点到点的落地战,点到点弄完了之后肯定Robotaxi大战;而在硬核的软件技术端,端到端大模型战在华为这个月宣布急攻端到端大模型的信息下,已经算是进入焦灼状态。

那么端到端大模型之后呢

或许最近不少苗头已经透露 VLM vision language model 具《智能驾驶技术演进与未来挑战:从目标物识别到大模型上车》体可以点击之前文章了解)之后的VLA (vision language action)会是2025年国内的自动驾驶行业全面宣传和竞争的重点,各家会开卷端到端大模型 2.0


VLA其实不但可以应用于自动驾驶,它其实是自动驾驶车辆的大类 - 智能机器人,具身智能的基础,那么也可以理解为什么现在人行机器人产业。具身智能会火起来了,其实机器人比汽车更容易,机器人出问题可能不会有生命危险,但汽车出问题是会有生命危险,甚至公共安全的生命危险。

本文整理 VLA 相关论文以及其在汽车行业发展和应用信息,希望能大家一些科普和前瞻信息。

  • 什么是 VLA 模型?

  • VLA 有哪些优点?

  • 实验室里面的 VLA 有哪些进展?

  • 落地应用 VLA 有哪些挑战?

  • 目前有哪些车企在布局?

  • VLA会是自动驾驶最终的归宿吗?

什么是 VLA 模型

首先,我们先回顾视觉语言模型 (VLM), 它是一种机器学习模型,可以处理视觉信息和自然语言。它们将一张或多张图像作为输入,并生成一系列标记,这些标记通常表示自然语言文本。

VLM 的奇妙之处是在人类智慧结晶互联网上的图像和文本数据上进行训练的,VLM 类似于三体中的智子,吸收了人类语言文字的智慧,能看懂和推理图片内容

而 VLA 模型,就是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练这些现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。

这些经过进一步训练的 VLM 被称为视觉-语言-动作 (VLA) 模型。通过结合视觉和语言处理,VLA 模型可以解释复杂的指令并在物理世界中执行动作

上面Google Deepmind RT-2的图片,非常好的图像化解释VLA,VLA(RT-2) = VLM + 机器运动数据(RT-1)。

VLA 有哪些优点
首先,VLA是一个端到端大模型,所以大模型该有的优点,他都有。
另外,从视觉到执行,类似可推理性,可解释性都有非常大的优势,这个可以查看之前文章了解《采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA》。
其次,它具有通用型,未来所有“智能机器设备”都可以统一采用这套大模型算法,通过微调可以实现,不管是汽车,飞行设备,乃至任何智能机器人都可以通用。
所以这就是为什么可以看到现在的新势力,上天下地,机器人都搞的原因,他们明白通用AI可以加任何机械设备从而变成人工智能设备,实现phycial AI(也有人叫具身智能,我更愿意叫他phycial AI)而不是仅仅现在的digital AI
VLA这些通用系的模型在数据量、计算资源和模型复杂度的边界上表现出持续的性能提升,因为有了自然文字语言的人类智慧为底座,所以可以极大的减少重复的数据,计算资源,同时降低模型复杂度。
实验室里面的 VLA 有哪些进展
当前AI的催生,基本都来自于著名学术机构高校和知名公司的创新实验。
2023年7月28日,谷歌DeepMind推出了全球首个用于控制机器人的视觉语言动作(VLA)模型 RT-2 也就是上文解释 VLA 借用的那个图片。
RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 为基础,这些模型使用 DeepMinds 在开发 RT-1 模型期间收集的机器人轨迹数据进行微调。
该模型经过微调,通过将机器人动作表示为文本标记来输出机器人动作。这种独特的方法使模型能够从自然语言响应和机器人动作中学习,从而使其能够执行各种任务。
RT-2 模型的令人印象深刻的泛化能力。该模型在新的物体、背景和环境中表现出显著改善的性能。
它可以解释机器人训练数据中不存在的命令,并根据用户命令执行基本的推理。推理能力是底层语言模型采用思路链推理能力的结果。
该模型推理能力的例子包括弄清楚要拿起哪个物体用作临时锤子(一块石头),或者哪种饮料最适合疲惫的人(能量饮料)。这种程度的泛化是机器人控制领域的一大进步。
RT-2目前不是开源的,也就是大家无法基于他去创新和修改,但他的出现激励了当前智能机器人行业的发展,给了大家信心
另一个比较知名的是 OpenVLA 模型,它是由来自斯坦福大学、加州大学伯克利分校、谷歌 Deepmind 和丰田研究院的研究人员组成的团队发起。
他是一种基于 LLM/VLM 构建的视觉/语言动作模型,用于具身机器人和行为学习(此基础模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM)。
OpenVLA 模型不是使用图像字幕或视觉问答,而是根据用于控制机器人的摄像头图像和自然语言指令生成动作标记。
动作标记是从文本标记器词汇表中保留的离散标记 ID,这些标记映射到连续值,并根据每个机器人的运动范围进行归一化。
通过微调预训练的Prismatic-7B VLM 来训练 OpenVLA 。模型由三个关键元素组成:
  • 融合视觉编码器一般也叫ViT(Vision transformer),由 SigLIP 和 DinoV2 主干组成,其中DinoV2主要是为了增加对于空间的理解,将图像输入映射到多个“图像块嵌入”,可以简单理解将视觉编码成语言。
  • 投影仪MLP Projector,这个组件可以获取视觉编码器的输出嵌入并将其映射到大型语言模型的输入空间,可以理解为这是个中间人,他能将编码的语言和大语言模型对接上。
  • Llama 2 7B作为语言模型的主干,根据对接上的信息,预测标记化的输出动作。这些标记被解码为可直接在机器人上执行的连续输出动作。
OpenVLA 是开源的,目前不少公司应该都基于他在进行研究,来找VLA应用和商业落地的方法
以上两个为影响比较大的,除了上面 VLA 还有不少其他的例如 Umass的3D-VLA,美的集团的Tiny-VLA等等。
落地应用 VLA 有哪些挑战
VLA 那么好,是不是立马可以在生活和商用中用起来?其实上面RT-2/Open VLA基本上和大模型一样都是上Billions十亿的参数。
模型大,需要边缘算力大,就拿Open VLA 的7B 的参数模型来看,推理过程中速度很慢,需要对大量机器人数据进行大量预训练,这使得实际部署变得困难。
所以,实时运行大型 VLA 模型的计算成本很高,需要进行更多研究来优化其推理速度
此外,目前可用于微调的开源 VLM 模型有限
未来的研究应侧重于开发实现更高频率控制的技术,并使更多 VLM 模型可用于训练 VLA 模型。
Phycical AI 需要与人类世界互动,那么实时高频精准的运动是必须的,机器人可能要求的响应可以低,但一般可用的都需要达到以 30-50 Hz 运行的执行;而汽车智能汽车的电控底盘一般的执行响应都达到100Hz。所以,这里还有很长的路要走。
最后,其实 VLA 应用的难点还有匹配语言描述和驾驶行为或者机器人动作的训练
目前VLA 模型应用于自动驾驶的一个主要障碍是缺乏能够有效结合视觉数据与语言描述和驾驶行为的大规模数据集。
现有数据集往往在规模和全面注释方面存在不足,尤其是对于语言,这通常需要费力的人工操作。这限制了能够处理现实世界驾驶复杂性的稳健 VLA 模型的开发和评估。
所以这些都是目前 VLA 工程落地,需要攻克的问题。
目前有哪些车企在布局?
目前准确来讲,应用VLA的应该屈指可数,甚至没有,但大批车企以及自动驾驶企业布局中。
我们之前文章《采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA》中讲到的EMMA,就是Waymo内部团队在创新和测试探索的 VLA。
国外的创业公司Wayve,他的主要投资方是微软和软银,走的是提供L4软件算法的路线,目前测试车队已经从欧洲扩展到北美,与Uber达成合作协议,未来可能进入Uber平台。
他在开始就站位采用通用人工智能来解决自动驾驶,所以可以看到之前就采用LLM,之后采用VLM,目前有消息其正在采用类似于VLA的模型。
国内,元戎启行在上个月宣布下一步计划使用VLA,计划在英伟达Thor芯片上进行开发,不过Thor推迟到明年年中量产,高性能Thor估计年底,所以估计中国的VLA大概率在明年中旬声量巨大,一起卷。
另外,就是理想,这个我们之前文章《智能驾驶技术演进与未来挑战:从目标物识别到大模型上车》中讲过理想在上半年就开始推进VLM,现在其车上智驾已经采用VLM,那么接下来肯定是朝着VLA进发。
小鹏,目前没有信息,但是看小鹏科技产品的布局,从机器人,汽车到飞行基本上也赌的是人工智能,如果不走通用人工智能的方向,那么显然战略失误,所以估计在研发中或者布局中。
华为,比较特殊,有自己的闭环和中国特色发展,其200TOPs的MDC显然在规则化,小模型的算法方面做的是一流,车辆运动控制遥遥领先,但最近估计也是感觉端到端是未来,这个月的动态显示其急攻一段式端到端,那么估计其应用VLA也不会很长。
至于,蔚来汽车昨天搞了NIO Day发布了一大堆东西,由于没有邀请我,我得说说蔚来的问题了,开玩笑,蔚来一直是我喜爱而且认为有格局和格调的品牌,但蔚来有点不像新势力了,他反过头来在追随传统汽车的末日黄昏,蔚来在硬件端是在准备,但是在智能驾驶软件端,目前缺少相关信息。
VLA 会是自动驾驶最终的归宿吗
很难说,不过,自动驾驶采用AI的大方向是既定的,但是AI的发展太迅猛了,从采用CNN识别物体到Transformer BEV 构建时空关系应用大概也就是几年,但从端到端大模型演化到采用通用人工智能的VLM却是一年之内。
那么对应的从文字LLM 到视觉的VLM再到未来是不是空间Spatial 人工智能的大力发展?AI 还是一个快速发展的小孩,都有可能!

*未经准许严禁转载和摘录-参考资料:

  1. 2024_Kira_ECCV_FOCUS.pdf - 

  2. Google deepmind RT-2 .pdf - Anthony Brohan, Noah Brown等

  3. OPEN VLA .pdf - Moo Jin Kim∗,1 Karl Pertsch∗等

  4. 2024-IB-Introduction-Embodied-AI-Wayve.pdf

加入我们的知识星球可以下载包含以上参考资料的公众号海量参考资料


>>>>

相关推荐

  • 采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA
  • 智能驾驶技术演进与未来挑战:从目标物识别到大模型上车
  • 被逼墙角的Mobileye,祭出 CAIS 大旗,挑战端到端大模型智能驾驶
  • 欧盟加征关税下的中国汽车出海
  • AI 巨头 Nvidia 英伟达在汽车领域做什么?




Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论 (0)
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 140浏览
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 263浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 37浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 37浏览
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 170浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 91浏览
  • 探针台作为高精度测试设备,在光电行业的关键器件研发、性能测试及量产质量控制中发挥核心作用,主要涵盖以下应用场景与技术特性:一、光电元件性能测试1.‌光电器件基础参数测量‌l 用于LED、光电探测器、激光器等元件的电流-电压(I-V)特性、光功率、响应速度等参数测试,支撑光通信、显示技术的器件选型与性能优化。l 支持高频信号测试(如40GHz以上射频参数),满足高速光调制器、光子集成电路(PIC)的带宽与信号完整性验证需求。2.‌光响应特性分析‌l 通过电光转换效率测
    锦正茂科技 2025-04-27 13:19 129浏览
  • 文/郭楚妤编辑/cc孙聪颖‍越来越多的企业开始蚕食动力电池市场,行业“去宁王化”态势逐渐明显。随着这种趋势的加强,打开新的市场对于宁德时代而言至关重要。“我们不希望被定义为电池的制造者,而是希望把自己称作新能源产业的开拓者。”4月21日,在宁德时代举行的“超级科技日”发布会上,宁德时代掌门人曾毓群如是说。随着宁德时代核心新品骁遥双核电池的发布,其搭载的“电电增程”技术也走进业界视野。除此之外,经过近3年试水,宁德时代在换电业务上重资加码。曾毓群认为换电是一个重资产、高投入、长周期的产业,涉及的利
    华尔街科技眼 2025-04-28 21:55 31浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 118浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 108浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 143浏览
  •  探针台的维护直接影响其测试精度与使用寿命,需结合日常清洁、环境控制、定期校准等多维度操作,具体方法如下:一、日常清洁与保养1.‌表面清洁‌l 使用无尘布或软布擦拭探针台表面,避免残留清洁剂或硬物划伤精密部件。l 探针头清洁需用非腐蚀性溶剂(如异丙醇)擦拭,检查是否弯曲或损坏。2.‌光部件维护‌l 镜头、观察窗等光学部件用镜头纸蘸取wu水jiu精从中心向外轻擦,操作时远离火源并保持通风。3.‌内部防尘‌l 使用后及时吹扫灰尘,防止污染物进入机械滑
    锦正茂科技 2025-04-28 11:45 89浏览
  •  集成电路封装测试是确保芯片性能与可靠性的核心环节,主要包括‌晶圆级测试(CP测试)‌和‌封装后测试(FT测试)‌两大阶段,流程如下:一、晶圆级测试(CP测试)1.‌测试目的‌:在晶圆切割前筛选出功能缺陷或性能不达标的晶粒(Die),避免后续封装环节的资源浪费,显著降低制造成本。2.‌核心设备与操作‌l ‌探针台(Prober)‌:通过高精度移动平台将探针与晶粒的Pad jing准接触,实现电气连接。l ‌ATE测试机‌:提供测试电源、信号输入及功能向量,接收晶粒反
    锦正茂科技 2025-04-27 13:37 202浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 253浏览
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 115浏览
我要评论
0
2
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦