理想智驾的VLA模型及其结构

原创 Vehicle 2025-04-21 21:00
我们之前文章《2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》分享过VLA,现在,不少公司已经宣称会在2025年下半年都会推出此类模型结构。
理想算是比较早喊出使用VLA模型做智能驾驶的公司,VLA将感知(3D编码器)、推理(语言模型)、决策(扩散策略)整合为单一可训模型,也就是端到端大模型的一种。
同时理想表示,他的VLA将同时支持外部多模态的交互,例如驾驶员的语音交互,周边指定的视觉输入,实现智驾听得懂,看得见,找得到。
所以,本文将通过理想相关信息来拆解分享理想智驾VLA算法。
理想VLA模型架构的四大核心模块:
  • V-Spatial Intelligence,通过汽车传感器输入的信息,将感知和自车模态3D建模,形成开车的环境和自我的理解,并将这些信息token化。
  • L–Linguistic Intelligence,大语言模型,这个大语言模型基本上就是目前AI的token everyting,token就是AI的语言,其他外部输入,例如驾驶员语言控制也token化,统一进行类似于语言的推理。
  • A-Action Policy,产生动作,类似于人类驾驶员,推理出当前环境和自车情况之后,产出一条驾驶路径。基于扩散模型生成多模态驾驶轨迹,支持自车与其他交通参与者的交互博弈。
以上,三步就组成了理想VLA的模型结构,从感知到,处理,最后到生产运动轨迹。同时整合为单一可训模型。如何训练呢?
  • Reinforcement Learning,是理想VLA模型训练的方法,模型需要喂人类想要的数据和结论给到模型,模型以后遇到类似的情况才能正确的相应。
理想采用世界模型的方式,世界模型也就是英伟达常说的“结合3D重建与生成技术,构建高保真,熟悉物理世界的虚拟环境”类似于英伟达cosmos此类。然后,通过人类给定的好案例用于强化学习训练和闭环验证。
理想VLA模型架构的详细构建:
首先是类似于摄像头等传感器的输入。
3D空间编码器:摄像头以及激光雷达信息进行3D编码,提炼成3D特征,形成3D空间理解;通过自监督学习训练3D高斯表征,利用真实驾驶数据中的RGB图像生成多尺度几何和语义信息,无需人工标注。
此外,自车信息例如方位,导航信息进行编码。形成了3D空间理解的token。
其实对于3D空间的理解,当前主流的方向都是学习特斯拉的采用BEV Transformer以及occupancy的方式,具体可以点击之前文章《智能驾驶-城市领航辅助必备的BEV以及Occupancy networks》。通过理想发布的信息,理想的创新是采用了Gaussian-Centric的方式表征多尺度3D几何与语义信息。
有了这些被token化的感知信息,那么就需要推理模型。
语言模型(MindGPT):理想表示,其LLM大语言模型完全从零训练,是理想的专用大语言模型(非开源模型改造),融合驾驶知识、逻辑推理能力和3D空间理解。
熟悉大语言模型的都知道,大语言模型参数量巨大,需要推理的算力和实时性都难以实现自动驾驶,所以理想宣称其MindGPT通过Sparse Attention稀疏注意力机制和混合专家(MoE)架构优化推理效率,达到了10hz的输出,也就是100ms能够产生结论,而且还适应车载芯片(如Orin X)的算力限制。
Sparse Attention稀疏注意力机制和混合专家(MoE)都是今年爆火的Deepseek采用的方法,所以,如我之前文章《自动驾驶新风口:DeepSeek-R1 的“车端革命”》讲到,Deepseek此类开源大模型通过专业化的数据训练再通过蒸馏成小模型就可以做成专用的小模型。
此外理想还提到利用固定简短CoT模板,来平衡实时性与逻辑深度。
对于此处的大模型应用来讲,主要的逻辑就是把大模型蒸馏轻量化,专业化,便于车端的小算力和实时化部署。
有了推理之后,就是执行变成驾驶的运动轨迹实现控车。
行为生成器(Diffusion Policy):基于扩散模型生成多模态驾驶轨迹,预测自车与他车轨迹,支持自车与其他交通参与者的交互博弈。通过ODE采样器加速生成过程,实现2-3步稳定输出,满足实时性要求。
真实端到端的魅力,就是以上几个部分能够融合打通,共用一套token,进行无损和实时的信息传递,如何构建这些token的参数parameters例如权重weight就是训练要干的事情了。
对于模型的训练,理想汽车的强化学习(RL)框架依赖于一个高度逼真的世界模型,该模型通过结合场景重建与生成技术构建,解决了传统RL在自动驾驶中因环境真实性不足导致的训练偏差问题。
采用自监督学习方法,通过多视角RGB图像重建动态3D场景,生成多尺度几何与语义信息。3D高斯以点云形式表示场景,每个高斯点包含位置、颜色、透明度和协方差矩阵,能够高效渲染复杂环境。
这样VLA模型(端到端+语言模型)的训练可以基于在云端构建虚拟3D环境,进行数百万公里的驾驶模拟,替代部分实车测试。
写在最后
当然,本文的主要信息其实算是理想汽车的公开而且偏向技术宣传类的信息,至于效果怎么样,还需要实际体验,但本文信息还算能够大概了解其算法结构,思路以及相关核心技术。
此外,理想这套模型如果跑通,那么应用于其他Physical AI 也是同理,例如机器人。

未经准许严禁转载和摘录-参考资料:
  1. 理想 2025 GTC 演讲 ppt - VLA: A Leap Towards Physical AI in Autonomous Driving
加入我们的知识星球可以下载包含以上参考资料的汽车行业海量的一手资料
图片



>>>>

相关推荐

  • 奥迪AG的2024年以及2025战略转型与全球布局的全景解析

  • 一文看懂2025汽车百人会国际论坛:中国汽车出海,外资在华如何发展

  • 特斯拉"Master Plan Phase 4"路线图全解构:能源×FSD×AI×机器人=?

  • 2025 CES 英伟达发布洞察:Agentic AI/Physical AI 快速落地,未来已来

  • 2025年电动汽车百人会 - 部委的发言透露什么核心信息?

Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论 (0)
  • 文/郭楚妤编辑/cc孙聪颖‍越来越多的企业开始蚕食动力电池市场,行业“去宁王化”态势逐渐明显。随着这种趋势的加强,打开新的市场对于宁德时代而言至关重要。“我们不希望被定义为电池的制造者,而是希望把自己称作新能源产业的开拓者。”4月21日,在宁德时代举行的“超级科技日”发布会上,宁德时代掌门人曾毓群如是说。随着宁德时代核心新品骁遥双核电池的发布,其搭载的“电电增程”技术也走进业界视野。除此之外,经过近3年试水,宁德时代在换电业务上重资加码。曾毓群认为换电是一个重资产、高投入、长周期的产业,涉及的利
    华尔街科技眼 2025-04-28 21:55 121浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 203浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 139浏览
  •  探针台的维护直接影响其测试精度与使用寿命,需结合日常清洁、环境控制、定期校准等多维度操作,具体方法如下:一、日常清洁与保养1.‌表面清洁‌l 使用无尘布或软布擦拭探针台表面,避免残留清洁剂或硬物划伤精密部件。l 探针头清洁需用非腐蚀性溶剂(如异丙醇)擦拭,检查是否弯曲或损坏。2.‌光部件维护‌l 镜头、观察窗等光学部件用镜头纸蘸取wu水jiu精从中心向外轻擦,操作时远离火源并保持通风。3.‌内部防尘‌l 使用后及时吹扫灰尘,防止污染物进入机械滑
    锦正茂科技 2025-04-28 11:45 104浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 164浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 130浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 155浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 184浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 163浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 147浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 145浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 169浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦