理想汽车MindVLA关键点解读

智能汽车设计 2025-03-27 08:36
作者:张云聪,蔚来汽车·自动驾驶决策规划算法专家

原文来自知乎,地址:
https://zhuanlan.zhihu.com/p/31001868721

本文只做学术/技术分享,如有侵权,联系删文。


1.理想汽车贾鹏在NV GTC上的演讲视频 【如上】

2.理想汽车官方公众号文章:理想汽车发布下一代自动驾驶架构MindVLA

https://mp.weixin.qq.com/s/Q0XBU4fOFHNlAxRqTf48AA

3.理想贾鹏英伟达GTC讲VLA 1228字省流版/完整图文/完整视频

https://mp.weixin.qq.com/s/xrzNNWD_epO-lZUTaMp61A



方案解读


图片

看MindVLA解读之前,建议先看看我总结的近期VLA论文调研 近几年VLA方案调研(截止25.03.14):https://zhuanlan.zhihu.com/p/30182000493


技术点总纲


贾鹏讲到了有六大技术点,听了几遍没听明白他是怎么划分这六大技术点的,就把我听到的技术点都列一下:

  • V(ision): 3D空间理解能力


  • 基于Gaussian 3D的空间理解中间表达


  • L(ingustic): 从零开始重训智驾LLM

  • 利用智驾现成感知网络能力,并添加其他智驾输入,自定义智驾专用的LLM input tokenizer
  • 预训练时利用未来帧的预测生成和稠密深度的预测增加3D空间理解和推理能力
  • Action Token
  • CoT
  • MoE


  • A(ction): VLM指导下的动作模型


  • diffusion model生成精细化动作
  • RLHF微调采样过程,对齐行为生成


  • VLA在车端芯片的实时推理

  • Sparse Attention
  • Action Token采用并行解码
  • CoT采用小词表和投机推理
  • 常微分方程的ode采样器

  • WorldMode加持的大规模强化学习


01

V(ision): 3D空间理解能力


基于Guassian 3D的空间理解中间表达


这块儿是理想之前就发过的文章,我之前也没太细了解,听视频讲主要优势是可以通过视频自监督的训练这个中间表达,然后后边的感知网络都直接基于这个中间表达做,是BEV->Occ->3D Gaussian这么一个升级路线,中间表达越来越精细、3D化,并且Occ真值一般是依赖激光雷达生成的,Guassian 3D纯依赖图像。

02

L(ingustic): 从零开始重训智驾LLM

理想的方案是我调研最近很多方案,遇到的第一个整体重训LLM的,还是很有魄力的 (但也许只是我们比较穷>_<)


自定义智驾专用的LLM input tokenizer


一般来说VLM的实现方式就是基于一个现成的LLM的基础上,加上一些vision encoder再加个mlp把图像转成特殊的输入token,然后加一大堆图像和问题做输入,用回答的文字做监督。因为涉及到新增input token,其训练成本是比较高的。

因为改动输入token成本较高(加进去容易,能学到难),一般业界SOTA的VLA方案,对模型改动大的,一般来说也只是在输出层加上特殊的输出Action Token,几乎不会在输入token上做什么改动。(PS: 文章发出后被指证,RoboMM里也添加了输入token,通过一些手段一定程度上降低了增加输入自定义Token的成本)

但不在输入token上做改动就会导致VL部分能力容易被pretrained VLM的vision encoder卡住,没有办法充分的利用智驾领域成熟的专业感知网络,这限制了VL部分的效果。为了规避这种问题,在一些论文中提到了在Action中添加额外的网络和额外传感器数据,例如RoboDual,这种方式简单有效,但这会使得VL部分发挥的作用变低,可能VL部分慢慢就退化成了只有人类语音指令意图识别了,想让它发挥3D空间识别推理能力时,即使它给准了下游也未必敢信。

因此,我觉得理想这块儿还是比较有决断和魄力的,直接从根本上走了难走但上限高的路子。

(不过只是增加input token和完全要从零开始LLM难度还是有差异的,如果理想真的是从零开始,应该还有别的原因,比如后边说的推理效率、增强空间推理能力等)


预训练时利用未来帧的预测生成和稠密深度的预测增加3D空间理解和推理能力


比较容易理解,相当于用视频生成类的方法来监督LLM的训练,用更难但更容易自监督(更容易获得大量数据)的方法来做训练,使其获得基本的能力,用于简单一些的任务上,是很常见有效的手法。


Action Token


Action Token方法和OpenVLA & pi-0比较像,最简单就是用栅格法(分箱法),把动作空间划分成许多栅格,每个格子整成一个token,然后让VLM预测这个token,拿真实的主车、障碍车轨迹算出token来做监督。

后边pi-0 fast、OpenVLA-OFT里也都有一些token的优化表达方式,有兴趣的可以再去了解细节。

这里边有个重点视频里提了一句,就是Action Token表达的不仅仅是主车的Action,还包括周围的状态车的。这个我在前边调研论文里就说过,在机器人领域里当前一般只关注机器人本身的动作,对动态障碍物要求还没那么高,而智驾领域里,障碍车的响应编码进去是很必要的,可以参考MotionLM里的编码方法来完成主车和障碍车的统一编码。


CoT


用可配置开启的思维链,用来提升规划效果。这块具体细节我不太熟悉。


MoE



图片


DeepSeek R1之后基本标配了,不多说


03

A(ction): VLM指导下的动作模型


diffusion model生成精细化动作


VLM出的Action Token已经可以直接反向推出一个主车和障碍车预测轨迹了,但缺点是Action Token分栅格时会有精度损失。diffusion model可以把Action Token转化生成更精细的动作,这块儿基本上也是业界通用手法。


RLHF微调采样过程,对齐行为生成


图片

利用RLHF来做行为对齐。

但我这块儿没有太懂,行为决策为啥不是在VL部分搞好,而是要在Action模型里做。我觉得VL部分有点像智驾里的BP,而Action部分类似于MP,粗轨迹里就应该包含好决策信息,如果让Action搞这种决策的话VL部分的职责就很不清晰,很容易最后所有问题都要靠Action模型。我觉得可能是当前阶段VL还不能很好做好决策,把压力都压到了Action层导致的。


04

VLA在车端芯片的实时推理

这也是理想这个方案一大革新,虽然都是工程上的东西,但意义重大。

它可能是第一次实现了同一个VLA模型在车端高频(10hz+)执行,完全满足了智驾的耗时需求。

OpenVLA-OFT本身做了许多优化之后,最后做到了一次推理0.321s,然后利用Action Chunking均摊之后说可以做到77hz,但实际上Action Chunking均摊并不会增加感知信息更新频率,实际上真正的频率还是按3hz左右算更合理。而pi-0 & RoboDual之类的多数文章都是绕开了提升VL执行性能这条路,让VL和A分开执行,VL低频运行,Action高频运行。一般来说也够用,但确实也会导致Action有时要有能力忽略掉VL的提示(因为可能会有更新的输入)。

而理想这块儿则是直接想办法搞定VL高频执行这个难题。


Sparse Attention


不多说,参考DeepSeek R1


Action Token采用并行解码


原理可以看OpenVLA-OFT。


CoT采用小词表和投机推理


这块儿我没有了解过细节,后续学会了再补充。


常微分方程的ode采样器


这个也没太多要说的,FlowMatching常见手法。

05

WorldModel加持的大规模强化学习

仿真器里强化学习这块儿我不很看好,没看到怎么解决Smart Agent和Planner模型鸡生蛋蛋生鸡问题,暂不多说。


应用场景


本文重心主要讲的技术点,对于应用层,直接贴一下原视频里的图,不多解释:


图片


最后闲聊下


VLA能带来什么?


  1. 语言、图像多模态指令理解和交互能力。

    首先是与用户的交互能力可以显著提升,比如,『请帮我在电梯口附近找一个相对比较空的车位停下来』这类复杂的指令的理解和执行。也可以对用户输出一些智驾行为解释,提升用户安心感。

    除了与用户的交互外,VLA也可以提升一些泛语言的标识等世界指示信息的理解,简单来说就比如公交车道、限时车道、交警指示、路边一些特殊文字指标、商店标牌的理解,以及理解之后的推理能力,如地库里根据各种标识来推测用户目的地在哪儿,该往哪里走。

    此外,VLA还可以提升与外界的交互能力。将来可能打灯之类的也都可以直接VLA出、甚至未来哪天可能车可以直接和旁车或行人说话。叠加上座舱相关的大模型,最终目标就是车就是一个出行的智能助理。

  2. 世界常识与基于常识的推理能力

    塑料袋、棉花团能不能压?如果必须要撞了,怎么撞更安全些?这些问题很可能用端到端也是无法解决的,因为端到端训练不太可能拿一堆撞了的数据来做训练怎么撞安全些。但人类是可以基于常识推理出来的。还有一些道路上少见的特殊状况的未来状态预测,也可能需要依据常识来进行推理。

  3. 对于机器人领域,目前主要关注的是泛化指令理解。但我觉得未来机器人VLA会有一个比较有意思的爆发点:

    训练时,迁移学习,用人类的动作来训练,学习动作,最后拿机器人微调。

    然后最后实现One Shot Imitation Learning,即人类示范一遍之后,VLA拆解理解人类动作,让机器人实时的学会新的技能。比如,人类告诉机器人,『我在示范拿起书籍』,机器人学会了『拿起』『书籍』这两个概念,然后人类指令是『拿笔放到书上』时,机器人可以拿刚学到的概念增强新指令的执行效果。

    可惜这个似乎在智驾领域意义没那么大。


声明:本文基于公开资料分析,不涉及理想汽车未公开技术细节。

智能汽车设计 关注智能汽车发展,分享智能汽车知识!
评论 (0)
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 193浏览
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 179浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 151浏览
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 125浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 200浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 224浏览
  • 家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗?#70年代结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。#80年代随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这“新三件”,成为了人们对生活的新诉求。#90年代彩电、冰箱、全自动洗衣机开始大量进入普通家庭,快速全面普及,90年代末,家电产品实现了从奢侈品到必需品的转变。#00年代至今00年代,随着人们追求高品质生活的愿望,常用的电视机、洗衣机等已经远
    启英AI平台 2025-03-25 14:12 95浏览
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 144浏览
  • 文/陈昊编辑/cc孙聪颖‍2025 年,作为中国实施制造强国战略第一个十年计划的关键里程碑,被赋予了极为重大的意义。两会政府工作报告清晰且坚定地指出,要全力加速新质生产力的发展进程,推动传统产业全方位向高端化、智能化与绿色化转型。基于此,有代表敏锐提议,中国制造应从前沿技术的应用切入,逐步拓展至产业生态的构建,最终延伸到提升用户体验的维度,打出独树一帜、具有鲜明特色的发展牌。正是在这样至关重要的时代背景之下,于 AWE 2025(中国家电及消费电子博览会)这一备受瞩目的舞台上,高端厨房的中国方案
    华尔街科技眼 2025-03-25 16:10 93浏览
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 219浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 234浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 180浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦