一文读懂自动驾驶多目视觉感知

智驾最前沿 2024-09-21 08:40

从输出维度的角度来看,基于视觉传感器的感知方法可以分为2D感知和3D感知两种。

从传感器的数量上看,视觉感知系统也分为单目系统,双目系统,以及多目系统。2D感知任务通常采用的是单目系统,这也是计算机视觉和深度学习结合最紧密的领域。但是自动驾驶感知最终需要的是3D输出,因此我们需要将2D的信息推广到3D。

在深度学习取得成功之前,通常的做法是根据目标的先验大小以及目标处于地平面上等假设来推断目标的深度(距离),或者采用运动信息进行深度估计(Motion Stereo)。有了深度学习的助力之后,从大数据集中学习场景线索,并进行单目深度估计成为了可行的方案。但是这种方案非常依赖于模式识别,而且很难处理数据集之外的场景(Corner Case)。比如施工路段的特殊工程车辆,由于数据库中很少出现或者根本没有此类样本,视觉传感器无法准确检测该目标,因而也就无法判断其距离。双目系统可以自然的获得视差,从而估计障碍物的距离。这种系统对模式识别的依赖度较小,只要能在目标上获得稳定的关键点,就可以完成匹配,计算视差并估计距离。但是,双目系统也有以下缺点。

首先,如果关键点无法获取,比如在自动驾驶中经常引发事故的白色大货车,如果其横在路中央,视觉传感器在有限的视野中很难捕捉关键点,距离的测算就会失败。

其次,双目视觉系统对摄像头之间的标定要求非常高,一般来说都需要有非常精确的在线标定功能。

最后,双目系统的计算量较大,需要算力较高的芯片来支持,一般都会采用FPGA。

双目系统的成本介于单目和激光雷达之间,目前也有一些OEM开始采用双目视觉来支持不同级别的自动驾驶系统,比如斯巴鲁,奔驰,宝马等。理论上说,双目系统已经可以解决3D信息获取的问题,那么为什么还需要多目系统呢?

原因大致有两点:一是通过增加不同类别的传感器,比如红外摄像头,来提高对各种环境条件的适应性;二是通过增加不同朝向,不同焦距的摄像头来扩展系统的视野范围。下面我们就来分析几个典型的多目系统。


Mobileye的三目系统

对应定焦镜头来说,探测距离和探测视角是成反比的关系。视角越宽,探测的距离越短,精度越低;视角越窄,探测的距离越长,精度越高。车载摄像头很难做到频繁变焦,因此一般来说探测距离和视野都是固定的。

多目系统,可以通过不同焦距的摄像头来覆盖不同范围的场景。比如Mobileye和ZF联合推出的三目系统,三目包含一个150°的广角摄像头,一个52°的中距摄像头和一个28°的远距摄像头。其最远探测距离可以达到300米,同时也可以保证中近距的探测视野和精度,用于检测车辆周边的环境,及时发现车辆前方突然出现的物体。

Mobileye和ZF的三目相机

这种三目系统主要的难点在于如何处理重叠区域中不一致的感知结果。不同摄像头对于同一场景给出了不同的理解,那么就需要后面的融合算法来决定信任哪一个。不同摄像头自身的误差范围也不同,很难设计一个合理的规则去定义各种不同情况下的决策,这给融合算法带来了更大的挑战。文章后面会介绍,多目系统其实还可以采用数据层的融合,利用深度学习和大数据集来学习融合规则。当然也不是说交给机器学习就完事大吉了,黑盒子的深度神经网络有时也会给出难以解释的输出。


Foresight的四目感知系统

多目系统的另外一个思路是增加不同波段的传感器,比如红外摄像头(其实激光雷达和毫米波雷达也是不同波段的传感器而已)。来自以色列的Foresight公司设计并演示了一个四目感知系统(QuadSight)。在可见光双目摄像头的基础上,QuadSight增加了一对长波红外(LWIR)摄像头,使探测范围从可见光波段扩展到红外波段。红外波段的加入,一方面增加了信息量,另一方面也增强了在夜间环境以及在雨雾天气下的适应能力,保证了系统全天候运行的能力。

QuadSight系统中摄像头的视野范围为45度,最远可以探测150米的距离,可以在100米的距离内探测到35*25厘米大小的物体。运行速度方面可以达到45帧/秒,足以应对高速行驶的场景。

Foresight的QuadSight四目系统

QuardSight系统是由两对双目系统组成。从上图中可以看到,红外双目摄像头安装在挡风玻璃的左右两侧,其基线长度要比一般的双目系统大很多。这里稍微跑点题,讨论一下双目系统基线长度的问题。

传统的双目系统一般采用短基线模式,也就是说两个摄像头之间的距离比较短,这就限制了探测的最大距离。当一个目标距离很远时,其在左右图像上的视差已经小于一个像素,这时就无法估计其深度,既所谓的基线约束。这已是极限的情况,其实对于远距离目标,即使视差大于一个像素,深度估计的误差也是很大的。一般来说,深度估计的误差应该与距离的平方成正比。

为了提高双目系统的有效探测距离,一个直观的方案就是增加基线长度,这样可以增加视差的范围。NODAR的公司推出的Hammerhead技术,可以实现两个摄像头超大距离的宽基线配置,探测距离最远可达1000米,同时可以生成高密度的点云。这个系统可以利用整车的宽度,比如把摄像头安装在侧视镜、前大灯或车顶两侧。

Hammerhead技术中的宽基线配置


Tesla的全景感知系统

分析了三目和四目的例子后,下面进入本篇文章的重点,也就是基于多目的全景感知系统。这里我们采用的例子是Tesla在2021年的AI Day上展示了一个纯视觉的FSD(Full Self Driving)系统。虽然说只能算是L2级别(驾驶员必须做好随时接管车辆的准备),但如果只是横向对比L2级的自动驾驶系统,FSD的表现还是不错的。此外,这个纯视觉的方案集成了近年来深度学习领域的很多成功经验,在多摄像头融合方面很有特点,个人觉得至少在技术方面还是值得研究一下。

Tesla FSD系统的多摄像头配置

这里再稍微跑个题,说一下Tesla AI和Vision方向的负责人,Andrej Karpathy。这位小哥1986年出生,2015年在斯坦福大学获得博士学位,师从计算机视觉和机器学习界的大牛李飞飞教授,研究方向是自然语言处理和计算机视觉的交叉任务以及深度神经网络在其中的应用。马斯克2016年将这位青年才俊召入麾下,之后让其负责Tesla的AI部门,是FSD这个纯视觉系统在算法方面的总设计师。

Andrej在AI Day上的报告中首先提到,五年前Tesla的视觉系统是先获得单张图像上的检测结果,然后将其映射到向量空间(Vector Space)。这个“向量空间”是报告中的核心概念之一,我理解其实它就是环境中的各种目标在世界坐标系中的表示空间。比如对于物体检测任务,目标在3D空间中的位置,大小,朝向,速度等描述特性组成了一个向量,所有目标的描述向量组成的空间就是向量空间。视觉感知系统的任务就是将图像空间中的信息转化为向量空间中的信息。这可以通过两种方法来实现:一是先在图像空间中完成所有的感知任务,然后将结果映射到向量空间,最后融合多摄像头的结果;二是先将图像特征转换到向量空间,然后融合来自多个摄像头的特征,最后在向量空间中完成所有的感知任务。

Andrej举了两个例子,说明为什么第一种方法是不合适的。首先,由于透视投影,图像中看起来不错的感知结果在向量空间中精度很差,尤其是远距离的区域。如下图所示,车道线(蓝色)和道路边缘(红色)在投影到向量空间后位置非常不准,无法用支持自动驾驶的应用。

图像空间的感知结果(上)及其在向量空间中的投影(下)

其次,在多目系统中,由于视野的限制,单个摄像头可能无法看到完整的目标。比如在下图的例子中,一辆大货车出现在了一些摄像头的视野中,但是很多摄像头都只看到了目标的一部分,因此无法根据残缺的信息做出正确的检测,因此后续的融合效果也就无法保证。这其实是多传感器决策层融合的一个一般性问题。

单摄像头受限的视野

综合以上分析,图像空间感知+决策层融合并不是一个很好的方案。直接在向量空间中完成融合和感知可以有效地解决以上问题,这也是FSD感知系统的核心思路。为了实现这个思路,需要解决两个重要的问题:一个是如何将特征从图像空间变换到特征空间,另一个是如何得到向量空间中的标注数据。

特征的空间变换

对于特征的空间变换问题,专栏之前在3D感知的文章中也做了介绍,一般性的做法就是利用摄像头的标定信息将图像像素映射到世界坐标系。但这是个病态问题,需要有一定的约束,自动驾驶应用中通常采用的是地平面约束,也就是目标位于地面,而且地面是水平的。这个约束太强了,在很多场景下无法满足。

Tesla的解决方案中核心的有三点。

首先,通过Transformer和Self-Attention的方式建立图像空间到向量空间的对应关系,这里向量空间的位置编码起到了很重要的作用。具体实现细节这里就不展开说了,以后有时间再单开一篇文章详细的介绍。简单来理解的话,向量空间中每一个位置的特征都可以看作图像所有位置特征的加权组合,当然对应位置的权重肯定大一些。但是这个加权组合的过程通过Self-Attention和空间编码来自动的实现,不需要手工设计,完全根据需要完成的任务来进行端对端的学习。

其次,在量产应用中,每一辆车上摄像头的标定信息都不尽相同,导致输入数据与预训练的模型不一致。因此这些标定信息需要作为额外的输入提供给神经网络。简单的做法可以将每个摄像头的标定信息拼接起来,通过MLP编码后再输入给神经网络。但是,一个更好的做法是将来自不同摄像头的图像通过标定信息进行校正,使不同车辆上对应的摄像头都输出一致的图像。

最后,视频(多帧)输入被用来提取时序信息,以增加输出结果的稳定性,更好的处理遮挡场景,并且预测目标的运动。这部分还有一个额外的输入就是车辆自身的运动信息(可以通过IMU获得),以支持神经网络对齐不同时间点的特征图。时序信息的处理可以采用3D卷积,Transformer或者RNN。FSD的方案中采用的是RNN,以我个人的经验来看,这确实也是目前在准确度和计算量之间平衡度最好的方案。

通过以上这些算法上的改进,FSD在向量空间中的输出质量有了很大的提升。在下面的对比图中,下方左侧是来自图像空间感知+决策层融合方案的输出,而下方右侧上述特征空间变换+向量空间感知融合的方案。

图像空间感知(左下) vs. 向量空间感知(右下)

向量空间中的标注

既然是深度学习算法,那么数据和标注自然就是关键环节。图像空间中的标注非常直观,但是系统最终需要的是在向量空间中的标注。Tesla的做法是利用来自多个摄像头的图像重建3D场景,并在3D场景下进行标注。标注者只需要在3D场景中进行一次标注,就可以实时的看到标注结果在各个图像中的映射,从而进行相应的调整。

3D空间中的标注

人工标注只是整个标注系统的一部分,为了更快更好的获得标注,还需要借助自动标注和模拟器。自动标注系统首先基于单摄像头的图像生成标注结果,然后通过各种空间和时间的线索将这些结果整合起来。形象来说就是各个摄像头凑在一起讨论出一个一致的标注结果。除了多个摄像头的配合,在路上行驶的多台Tesla车辆也可以对同一个场景的标注进行融合改进。当然这里还需要GPS和IMU传感器来获得车辆的位置和姿态,从而将不同车辆的输出结果进行空间对齐。自动标注可以解决标注的效率问题,但是对于一些罕见的场景,比如报告中所演示的在高速公路上奔跑的行人,还需要借助模拟器来生成虚拟数据。以上所有这些技术组合起来,才构成了Tesla完整的数据收集和标注系统。

-- END --

声明:内容源自知乎@巫婆塔里的工程师,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,将及时处理!

智驾最前沿 「智驾最前沿」深耕自动驾驶领域技术、资讯等信息,解读行业现状、紧盯行业发展、挖掘行业前沿,致力于助力自动驾驶发展与落地!公众号:智驾最前沿
评论
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 37浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 70浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 83浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 41浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 86浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 98浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 102浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 70浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 65浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 106浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 66浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 51浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 167浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦