芝能科技出品
卓驭科技参加了中国电动汽车百人会论坛,AI首席技术官陈晓智发布了新一代智能驾驶解决方案GenDrive,介绍了在端到端世界模型与生成式智驾技术领域的突破性进展。
通过“感知-理解-生成”的闭环系统,颠覆了传统模块化架构的局限,推出了支持场景级风格自定义、无监督风格学习和自然语言意图解析的GenDrive系统。
这种方法实现了智能驾驶的个性化体验,还为L3/L4级自动驾驶的商业化落地奠定了技术基础。
端到端世界模型:
突破传统架构的智能范式革命
传统智能驾驶系统多采用“感知-决策-控制”的模块化架构,这种设计在简单场景下表现尚可,但在复杂动态环境中的表现却捉襟见肘。
例如,城市道路上的行人横穿、突发拥堵或多车交互等场景,往往因为模块间独立优化导致决策连贯性不足,难以实现接近人类驾驶员的灵活性和环境理解深度。
此外,基于模仿学习的传统端到端模型,通常从大量驾驶数据中提取“平均司机”的行为模式,与用户的个性化驾驶偏好存在偏差,限制了系统的适用性。
卓驭科技的端到端世界模型,基于生成式AI与强化学习的融合,突破了传统预测式范式的限制。
● 架构的核心在于构建“感知-理解-生成”的闭环系统,通过多模态数据融合和生成式推理能力,实现更智能、更拟人化的驾驶决策。
◎ 多模态数据融合:系统支持7V/10V/12V等多种传感器配置,通过视觉编码器、导航编码器和轨迹编码器,将摄像头、激光雷达和惯导系统的数据转化为统一的Token序列。这种设计能够全面捕捉环境信息,为后续推理提供丰富的数据基础。
◎ 生成式推理能力:与传统预测式模型一次性输出单一轨迹不同,卓驭的模型能够生成未来可能发生的“N个平行宇宙”,结合周围环境、动态交互和用户驾驶偏好,实时推理出最优驾驶轨迹。这种生成式方法使系统在复杂场景下的决策更加灵活,接近人类驾驶员的思维模式。
◎ 风格与意图的精准融入:系统引入风格编码器和文本编码器,前者学习用户驾驶习惯,后者解析自然语言指令。例如,用户输入“柔和驾驶”或“保持车距”等指令后,系统能够将这些抽象意图转化为具体的驾驶行为,确保输出轨迹与用户需求高度一致。
● 双阶段训练与硬件无关性,卓驭采用“预训练+后训练”的双阶段训练模式,确保模型的通用性与个性化兼得:
◎ 预训练阶段:基于BEV(鸟瞰图)模型,利用专家驾驶员数据和大量交通参与者轨迹数据,构建通用的环境理解和轨迹生成能力。这种多样化的数据输入提升了模型对长尾场景的适应性。
◎ 后训练阶段:通过强化学习和增量微调,模型快速收敛于用户个性化需求和特定场景性能。这一阶段还结合模仿学习,使系统能够在线适配用户的驾驶风格。
卓驭的训练机制实现了硬件无关性,模型可部署于32TOPS至1000TOPS的全算力平台,从低端芯片到旗舰级域控制器均能流畅运行。这种灵活性显著降低了车企的技术适配成本,推动了高阶智驾在不同价位车型上的普及。
GenDrive生成式智驾:
定义千人千面的驾驶体验
基于端到端世界模型,卓驭推出的GenDrive系统以个性化体验为核心,突破了智能驾驶“同质化”的瓶颈。
其三大创新功能——场景级风格自定义、无监督风格学习和自然语言意图解析——重新定义了用户与智能驾驶系统的交互方式。
GenDrive允许用户通过语音交互自定义驾驶风格,覆盖跟车策略、速度控制、路口转弯、变道逻辑等多个维度。例如,用户可以设定“运动模式下的急加速阈值”或“经济模式下的滑行距离”,系统将根据这些参数实时调整决策行为。
这种控制精度较传统固定模式提升了很大幅度,赋予用户前所未有的驾驶自由度。2025年内,GenDrive的相关功能将在量产车型上落地,进一步提升用户体验。
GenDrive具备强大的在线学习能力,能够通过分析用户驾驶轨迹,自动提取转向幅度、油门响应等多个特征参数,构建个性化驾驶风格图谱。这一过程完全在车端完成,无需云端交互,既保障了数据隐私,又实现了0延迟的风格切换。
此外,结合座舱人脸识别技术,系统支持多用户ID记忆,自动适配不同驾驶习惯。例如,家庭中不同成员使用同一辆车时,系统可根据识别结果无缝切换至对应的驾驶风格,真正实现“千人千面”。
GenDrive的自然语言交互能力是其另一大亮点。系统不仅能识别简单指令,还具备语义推理能力。例如,当用户说“前面修路,帮我绕行”时,系统会结合实时路况生成最优路径;说出“避开大型车辆”时,系统会动态调整跟车距离。
这种交互深度已接近人类副驾驶的理解水平,使智能驾驶从“能用”迈向“好用”,将在2025年量产车型中全面应用,标志着智能驾驶体验的质变。
GenDrive为L3/L4级自动驾驶奠定了基础,升级传感器配置,从惯导三目升级为“激目系统”(激光雷达+三目摄像头一体化模组),并采用英伟达Thor芯片支持最高1000TOPS算力。这种硬件冗余设计结合端到端世界模型,将逐步实现更高级别智驾能力的落地。