芝能科技出品
理想汽车在2024智能驾驶夏季发布会上宣布,将于7月内向所有理想AD Max用户全量推送“全国都能开”的无图NOA(Navigation on Autopilot),并将同时推送全自动AES(自动紧急转向)和全方位低速AEB(自动紧急制动)功能。此外,理想汽车还发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构,并开启了早鸟计划。
本文将解读这一重磅升级,探索其技术细节和实际应用。
无图NOA的实际应用场景十分广泛:
在全国范围内,用户可以在城市街道、乡村道路和狭窄胡同中使用这一功能,无需担心高精地图的更新和准确性问题。高效的时空联合规划能力使得车辆在复杂路况下依然能够平稳行驶,带来更加顺畅的驾驶体验。
无图NOA在复杂城市路口的表现尤为出色。通过BEV视觉模型融合导航匹配算法,车辆可以准确识别路口特征,选择最佳通行路径,避免了传统导航系统在复杂路口容易出现的误判问题。
全自动AES功能旨在应对AEB(自动紧急制动)无法规避的事故场景。在车辆行驶速度较快时,即使触发AEB,车辆全力制动仍可能无法及时刹停。此时,AES功能将被及时触发,无需人为参与转向操作,自动紧急转向,避让前方目标,有效避免极端场景下的事故发生。
全方位低速AEB主要针对泊车和低速行车场景,提供360度的主动安全防护。在复杂的地库停车环境中,车辆周围的立柱、行人和其他车辆等障碍物都增加了剐蹭风险。全方位低速AEB能够有效识别前向、后向和侧向的碰撞风险,及时紧急制动,为用户的日常用车带来更安心的体验。
理想汽车的全新自动驾驶技术架构受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发,模拟人类的思考和决策过程,形成更智能、更拟人的驾驶解决方案。
快系统(系统1)处理简单任务,基于经验和习惯形成的直觉应对95%的常规场景。慢系统(系统2)则通过深入理解与学习,进行逻辑推理和复杂分析,解决约5%的复杂甚至未知的交通场景。
端到端模型的输入主要由摄像头和激光雷达构成,多传感器特征经过CNN(卷积神经网络)主干网络的提取、融合,投影至BEV空间。为提升模型的表征能力,理想汽车还设计了记忆模块,兼具时间和空间维度的记忆能力。
在模型的输入中,理想汽车还加入了车辆状态信息和导航信息,经过Transformer模型的编码,与BEV特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。
端到端模型在实际驾驶中展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力,以及更拟人的路径规划能力。
VLM视觉语言模型由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统1辅助控制车辆。
VLM视觉语言模型参数量达到22亿,具备强大的理解能力,能够应对复杂交通环境和未知场景。VLM模型可以识别路面平整度、光线等环境信息,提示系统1控制车速,确保驾驶安全舒适。同时,VLM模型还具备更强的导航地图理解能力,可以修正导航,预防驾驶时走错路线。
世界模型结合了重建和生成两种技术路径,将真实数据通过3DGS(3D高斯溅射)技术进行重建,并使用生成模型补充新视角。在场景重建时,其中的动静态要素将被分离,静态环境得到重建,动态物体则进行重建和新视角生成。再经过对场景的重新渲染,形成3D的物理世界,其中的动态资产可以被任意编辑和调整,实现场景的部分泛化。
生成模型具有更强的泛化能力,天气、光照、车流等条件均可被自定义改变,生成符合真实规律的新场景,用于评价自动驾驶系统在各种条件下的适应能力。重建和生成两者结合所构建的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境,使系统具备了高效闭环的迭代能力,确保系统的安全可靠。
理想汽车发布无图NOA和全新的自动驾驶技术架构,表明在智能驾驶技术领域取得了重大突破。未来随着更多用户的使用和反馈,其智能驾驶系统还将不断优化和迭代。