理想如何从智驾追随者成为领先者

智驾最前沿 2024-12-25 08:40
编者语:后台回复“入群”,加入「智驾最前沿」微信交流群

端到端自动驾驶有全局式(一段式)和分段式(两段式)两种,其中全局式端到端思路清晰,研发成本远低于分段式,无需任何人工标注数据集,依赖谷歌、META、阿里和OpenAI等开发的多模态大模型。站在这些科技巨人肩上,性能比分段式端到端要好不少,但部署成本极高。
分段式的感知阶段仍然使用传统的CNN骨干网提取特征,在路径规划阶段使用端到端,性能虽然不如全局式,但部署成本比全局式端到端要低。这里的部署成本低是相对的,与目前主流的传统BEV+OCC+决策树相比,分段式的部署成本还是很高的。
全局式端到端的代表:WAYMO的EMMA,图片来源:Waymo
全局式端到端的代表有Waymo的EMMA,直接输入视频,没有骨干网,核心就是多模态大模型。分段式端到端的代表有UniAD。
分段式端到端的典型代表:UniAD整体架构,图片来源:论文《Planning-oriented Autonomous Driving》
以能否得到反馈为标准,端到端自动驾驶的研究主要分为两类:一类是在模拟器比如CARLA中进行,规划的下一步指令可以被真实的执行;第二类主要是在已经采集的现实数据上进行端到端研究,主要是模仿学习,参考UniAD。端到端自动驾驶目前都是开环的,不能真正看到自己的预测指令执行后的效果。由于不能得到反馈,开环自动驾驶的测评很受限制,现在文献中常用的两种指标包括L2距离和碰撞率。
  • L2 距离:通过计算预测轨迹和真实轨迹之间的L2距离来判断预测轨迹的质量
  • Collision Rate碰撞率: 通过计算预测轨迹和其他物体发生碰撞的概率,来评价预测轨迹的安全性
端到端自动驾驶最吸引人之处是性能提升潜力大,最早的端到端是UniAD,这是2022年底的论文,L2距离高达1.03米,2023年底就大幅提升至0.55米,2024年底进一步升到0.22米。地平线是端到端领域最活跃的公司之一,其技术发展路径也显示出了端到端路线整体的演进路径。UniAD出来之后,地平线立刻提出理念与UniAD接近的VAD,性能远超UniAD。这之后地平线转向全局端到端,第一个成果是HE-Driver,参数量比较大,然后是最近的Senna,参数量有所缩小,也是目前性能最佳的端到端方案之一。
Senna模型,图片来源:《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
部分端到端系统的核心仍然是传统算法BEVFormer,BEVFormer默认使用了车辆CAN总线信息,这里面包含了与自车速度,加速度,转向角相关的信息,这些都是显性的,对路径规划影响很大。这些端到端系统仍然需要监督训练,大量的人工标注就不可缺少,这让数据成本很高,再有既然借鉴了GPT的理念,为何不直接用LLM?于是有了理想汽车的DriveVLM。
下图是理想DriveVLM的模型pipeline,主要包括场景描述、场景分析、层级规划三个主要模块设计。
图片来源:《DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》
DriveVLM场景描述模块的功能主要分为两部分——环境描述和关键物体识别。其中,环境描述主要是对共性的驾驶环境的描述,比如天气和道路状况等;关键物体识别则是为了找出对于当前驾驶决策产生较大影响的关键物体。环境描述共包括以下四个部分:天气、时间、道路类型、车道线状况。
区别于传统自动驾驶感知模块将所有待检测物体都检出,DriveVLM 专注于识别当前驾驶场景中最有可能影响自车驾驶决策的物体,称之为关键物体,因为全部都检出会消耗天量算力。得益于理想汽车累积的海量自动驾驶数据的预训练以及开源的大模型,VLM相较传统3D目标检测器能够更好的检出长尾的关键物体,比如路面杂物或者非常见动物等。
对于每个关键物体,DriveVLM会分别输出其语义类别c和对应的2D目标框b。预训练来自NLP大模型领域,因为NLP用的标注数据很少,很昂贵,预训练首先利用海量的未标注数据训练,找到语言结构特征,然后再利用prompt做标签,微调来解决具体的下游任务。
DriveVLM彻底放弃了BEVFormer这种传统算法做核心,只用多模态大模型。理想汽车DriveVLM使用阿里Qwen-VL大模型,参数量高达97亿,输入清晰度选择448*448这种最低清晰度,用英伟达Orin做推理运算。

理想汽车如何从高端智驾追随者成为领先者?
2023年初,理想汽车在NOA大战中还是一个落后者,但2023年开始全力投入高阶自动驾驶研发后,2024年经过多次NOA版本升级,到2024年11月底率先推出车位到车位全场景自动驾驶,从而成为高阶智驾(NOA)量产的领先者。
回顾理想汽车端到端智驾的发展历程,除了自身数十万用户提供的数据支持外,还与多家合作伙伴开展端到端模型的研发合作。DriveVLM就是理想汽车和清华大学合作推出的。
除了上面提到的DriveVLM,理想汽车还与上海期智研究院、复旦大学等推出STR2,与极佳科技、中国科学院自动化研究所等单位提出DriveDreamer4D,与清华大学合作推出MoE方案等。
MoE混合专家架构
为了解决大模型参数太多,计算量太大的弊病,理想汽车与清华大学合作,采用了MoE即混合专家架构。混合专家(Mixture of Experts,简称MoE)是一种集成学习方法,它通过将多个专业化的子模型(即“专家”)组合起来,形成一个整体模型。每一个“专家”都在其擅长的领域内做出贡献。而决定哪个“专家”参与解答特定问题的,是一个称为“门控网络”的机制。每个专家模型可以专注于解决特定的子问题,而整体模型则能够在复杂的任务中获得更好的性能。混合专家方法适用于处理大规模数据集,能够有效地应对数据量巨大和特征复杂的挑战。这是因为它可以并行处理不同的子任务,充分利用计算资源,提高模型的训练和推理效率。
混合专家MoE架构,图片来源:《Generalizing Motion Planners with Mixture of Experts for Autonomous Driving》
STR2路径规划方案
STR2是一种基于Vision Transformer(ViT)和混合专家(MoE)架构的运动规划方案,由理想汽车联合来自上海期智研究院、复旦大学等高校机构的研究人员共同开发。
  • STR2专为自动驾驶领域设计,以提升在复杂和少见交通情况下的泛化能力。
  • STR2 是一种先进运动规划器,它通过结合Vision Transformer(ViT)编码器和混合专家(MoE)因果变换器架构,实现了对复杂交通环境的深度学习和有效规划。
  • STR2的核心思路是利用MoE架构在训练过程中通过专家路由来解决模态崩溃和奖励平衡问题,从而提高模型在未知或少见情况下的泛化能力。
PDM-Hybrid 和 STR2 路径规划方案对比
图片来源:《Generalizing Motion Planners with Mixture of Experts for Autonomous Driving 》
DriveDreamer4D世界模型
2024年10月底,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D。
  • DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频(例如变道场景)。
  • 同时,DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。
  • 总体结构框如图所示,轨迹生成模块(NTGM)用于调整原始轨迹动作,如转向角度和速度,以生成新的轨迹。这些新轨迹为提取结构化信息(如车辆 3D 框和背景车道线细节)提供了全新的视角。
  • 随后,基于世界模型的视频生成能力,并利用更新轨迹后得到的结构化信息作为控制条件,可以合成新轨迹的视频。最后,原始轨迹视频与新轨迹视频相结合,进行 4DGS 模型的优化。
基于视频的轨迹生成和 4D 重建系统,图片来源:《DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation》

-- END --

声明:内容源自佐思汽车研究,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,将及时处理!

智驾最前沿 「智驾最前沿」深耕自动驾驶领域技术、资讯等信息,解读行业现状、紧盯行业发展、挖掘行业前沿,致力于助力自动驾驶发展与落地!公众号:智驾最前沿
评论
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 304浏览
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 211浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 134浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 189浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 274浏览
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 214浏览
  •                                                窗        外       年底将近,空气变得格外寒冷,估计这会儿北方已经是千里
    广州铁金刚 2024-12-23 11:49 169浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 159浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 223浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 196浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 202浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦