理想智驾的VLA模型及其结构

原创 Vehicle 2025-04-21 21:00 170浏览 0评论 0点赞

TOLG 技术采用超紧凑的海鸥翼式引脚设计 2D→3D测试难？Tessent DFT一招搞

我们之前文章《2025年，自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》分享过VLA，现在，不少公司已经宣称会在2025年下半年都会推出此类模型结构。

理想算是比较早喊出使用VLA模型做智能驾驶的公司，VLA将感知（3D编码器）、推理（语言模型）、决策（扩散策略）整合为单一可训模型，也就是端到端大模型的一种。

同时理想表示，他的VLA将同时支持外部多模态的交互，例如驾驶员的语音交互，周边指定的视觉输入，实现智驾听得懂，看得见，找得到。

所以，本文将通过理想相关信息来拆解分享理想智驾VLA算法。

理想VLA模型架构的四大核心模块：

V-Spatial Intelligence，通过汽车传感器输入的信息，将感知和自车模态3D建模，形成开车的环境和自我的理解，并将这些信息token化。
L–Linguistic Intelligence，大语言模型，这个大语言模型基本上就是目前AI的token everyting，token就是AI的语言，其他外部输入，例如驾驶员语言控制也token化，统一进行类似于语言的推理。
A-Action Policy，产生动作，类似于人类驾驶员，推理出当前环境和自车情况之后，产出一条驾驶路径。基于扩散模型生成多模态驾驶轨迹，支持自车与其他交通参与者的交互博弈。

以上，三步就组成了理想VLA的模型结构，从感知到，处理，最后到生产运动轨迹。同时整合为单一可训模型。如何训练呢？

Reinforcement Learning，是理想VLA模型训练的方法，模型需要喂人类想要的数据和结论给到模型，模型以后遇到类似的情况才能正确的相应。

理想采用世界模型的方式，世界模型也就是英伟达常说的“结合3D重建与生成技术，构建高保真，熟悉物理世界的虚拟环境”类似于英伟达cosmos此类。然后，通过人类给定的好案例用于强化学习训练和闭环验证。

理想VLA模型架构的详细构建：

首先是类似于摄像头等传感器的输入。

3D空间编码器：摄像头以及激光雷达信息进行3D编码，提炼成3D特征，形成3D空间理解；通过自监督学习训练3D高斯表征，利用真实驾驶数据中的RGB图像生成多尺度几何和语义信息，无需人工标注。

此外，自车信息例如方位，导航信息进行编码。形成了3D空间理解的token。

其实对于3D空间的理解，当前主流的方向都是学习特斯拉的采用BEV Transformer以及occupancy的方式，具体可以点击之前文章《智能驾驶-城市领航辅助必备的BEV以及Occupancy networks》。通过理想发布的信息，理想的创新是采用了Gaussian-Centric的方式表征多尺度3D几何与语义信息。

有了这些被token化的感知信息，那么就需要推理模型。

语言模型（MindGPT）：理想表示，其LLM大语言模型完全从零训练，是理想的专用大语言模型（非开源模型改造），融合驾驶知识、逻辑推理能力和3D空间理解。

熟悉大语言模型的都知道，大语言模型参数量巨大，需要推理的算力和实时性都难以实现自动驾驶，所以理想宣称其MindGPT通过Sparse Attention稀疏注意力机制和混合专家（MoE）架构优化推理效率，达到了10hz的输出，也就是100ms能够产生结论，而且还适应车载芯片（如Orin X）的算力限制。

Sparse Attention稀疏注意力机制和混合专家（MoE）都是今年爆火的Deepseek采用的方法，所以，如我之前文章《自动驾驶新风口：DeepSeek-R1 的“车端革命”》讲到，Deepseek此类开源大模型通过专业化的数据训练再通过蒸馏成小模型就可以做成专用的小模型。

此外理想还提到利用固定简短CoT模板，来平衡实时性与逻辑深度。

对于此处的大模型应用来讲，主要的逻辑就是把大模型蒸馏轻量化，专业化，便于车端的小算力和实时化部署。

有了推理之后，就是执行变成驾驶的运动轨迹实现控车。

行为生成器（Diffusion Policy）：基于扩散模型生成多模态驾驶轨迹，预测自车与他车轨迹，支持自车与其他交通参与者的交互博弈。通过ODE采样器加速生成过程，实现2-3步稳定输出，满足实时性要求。

真实端到端的魅力，就是以上几个部分能够融合打通，共用一套token，进行无损和实时的信息传递，如何构建这些token的参数parameters例如权重weight就是训练要干的事情了。

对于模型的训练，理想汽车的强化学习（RL）框架依赖于一个高度逼真的世界模型，该模型通过结合场景重建与生成技术构建，解决了传统RL在自动驾驶中因环境真实性不足导致的训练偏差问题。

采用自监督学习方法，通过多视角RGB图像重建动态3D场景，生成多尺度几何与语义信息。3D高斯以点云形式表示场景，每个高斯点包含位置、颜色、透明度和协方差矩阵，能够高效渲染复杂环境。

这样VLA模型（端到端+语言模型）的训练可以基于在云端构建虚拟3D环境，进行数百万公里的驾驶模拟，替代部分实车测试。

写在最后

当然，本文的主要信息其实算是理想汽车的公开而且偏向技术宣传类的信息，至于效果怎么样，还需要实际体验，但本文信息还算能够大概了解其算法结构，思路以及相关核心技术。

此外，理想这套模型如果跑通，那么应用于其他Physical AI 也是同理，例如机器人。

未经准许严禁转载和摘录-参考资料：

理想 2025 GTC 演讲 ppt - VLA: A Leap Towards Physical AI in Autonomous Driving

加入我们的知识星球可以下载包含以上参考资料的汽车行业海量的一手资料。

>>>>

理想智驾的VLA模型及其结构

最近文章

热门文章

推荐

最新资讯