自动驾驶的视觉感知包括哪些内容?

智驾最前沿 2024-02-18 08:08

--关注星标回复“40429”--

↓↓免费领取:《汽车驾驶自动化分级》(GB/T 40429-2021)↓↓

原文链接:https://zhuanlan.zhihu.com/p/356589359?



本文针对自动驾驶行业的视觉感知做简要介绍,从传感器端的对比,到数据的采集标注,进而对感知算法进行分析,给出各个模块的难点和解决方案,最后介绍感知模块的主流框架设计。

视觉感知系统主要以摄像头作为传感器输入,经过一系列的计算和处理,对自车周围的环境信息做精确感知。目的在于为融合模块提供准确丰富的信息,包括被检测物体的类别、距离信息、速度信息、朝向信息,同时也能够给出抽象层面的语义信息。所以道路交通的感知功能主要包括以下三个方面:

  • 动态目标检测(车辆、行人和非机动车)

  • 静态物体识别(交通标志和红绿灯)

  • 可行驶区域的分割(道路区域和车道线)

这三类任务如果通过一个深度神经网络的前向传播完成,不仅可以提高系统的检测速度,减少计算参数,而且可以通过增加主干网络的层数的方式提高检测和分割精度。如下图所示:可以将视觉感知任务分解成目标检测、图像分割、目标测量、图像分类等。


传感器组件

前视线性相机

视角较小,一般采用52°左右的相机模组安装于车辆前挡风玻璃中间,主要用来感知车辆前方较远的场景,感知距离一般为120米以内。

周视广角相机

视场角相对较大,一般采用6颗100°左右的相机模组安装在车辆周围一圈,主要用来感知360°的周身环境(安装方案与特斯拉大同小异)。广角相机存在一定的畸变现象,如下图所示:

环视鱼眼相机

环视鱼眼相机视角较大,可以达到180°以上,对近距离的感知较好,通常用于APA,AVP等泊车场景,安装于车辆左右后视镜下方以及前后车牌下方等4个位置做图像的拼接、车位检测、可视化等功能。


相机标定

相机标定的好坏直接影响目标测距的精度,主要包括内参标定和外参标定。

内参标定用于做图像的畸变校正,外参标定用于统一多个传感器的坐标系,将各自的坐标原点移动到车辆后轴中心处。

最耳熟能详的标定方法就是张正友的棋盘格方法,在实验室里一般会做一个棋盘格板子标定相机,如下图:


出厂标定

但是自动驾驶做前装量产,由于批量生产的缘故,无法一辆辆使用标定板做标定,而是构建一个场地用于车辆出厂时标定,如下图所示:


在线标定

另外考虑到车辆运行一段时间或者在颠簸的过程中摄像头位置的偏移,感知系统中也有在线标定的模型,常利用消失点或车道线等检测得到的信息实时更新俯仰角的变化。


数据标注

自然道路场景存在各种各样的突发状况,所以需要采集大量的实车数据用来训练。高质量的数据标注成了一件至关重要的工作,其中感知系统需要检测的全部信息均需要进行标注。标注形式包括目标级标注和像素级标注:

目标级标注如下图:

像素级标注如下图:

由于感知系统中的检测和分割任务常采用深度学习的方式实现,而深度学习是一项数据驱动的技术,所以需要大量的数据和标注信息进行迭代。为了提高标注的效率,可以采用半自动的标注方式,通过在标注工具中嵌入一个神经网络用于提供一份初始标注,然后人工修正,并且在一段时间后加载新增数据和标签进行迭代循环。


功能划分

视觉感知可以分为多个功能模块,如目标检测跟踪、目标测量、可通行区域、车道线检测、静态物体检测等。

目标检测跟踪

对车辆(轿车、卡车、电动车、自行车)、行人等动态物体的识别,输出被检测物的类别和3D信息并对帧间信息做匹配,确保检测框输出的稳定和预测物体的运行轨迹。神经网络直接做3D回归准确度不高,通常会对车辆拆分成车头,车身,车尾,轮胎多个部位的检测拼成3D框。

目标检测难点:

  • 遮挡情况较多,朝向角准确性问题

  • 行人车辆类型种类较多,容易误检;

  • 多目标追踪,ID切换的问题;

对于视觉目标检测,在恶劣天气环境下,感知性能会有一定的下降;在夜晚灯光昏暗时,容易出现漏检的问题。如果结合激光雷达的结果进行融合,对于目标的召回率会大幅提高。

目标检测方案:

多目标的检测尤其是车辆的检测,需要给出车辆的3D Bounding Box,3D的好处在于能给出车的一个朝向角信息,以及车的高度信息。通过加入多目标跟踪算法,给车辆及行人对应的ID号。

深度学习作为一种概率形式的算法,即使提取特征能力强大,也不能覆盖掉所有的动态物体特征。在工程开发中可以依据现实场景增加一些几何约束条件(如汽车的长宽比例固定,卡车的长宽比例固定,车辆的距离不可能突变,行人的高度有限等)。

增加几何约束的好处是提高检测率,降低误检率,如轿车不可能误检为卡车。可以训练一个3D检测模型(或者2.5D模型)再配合后端多目标追踪优化以及基于单目视觉几何的测距方法完成功能模块。

目标测量

目标测量包括测量目标的横纵向距离,横纵向速度等信息。根据目标检测跟踪的输出借助地面等先验知识从2D的平面图像计算车辆等动态障碍物的距离信息、速度信息等或者通过NN网络直接回归出现世界坐标系中的物体位置。如下图所示:

单目测量难点:

如何从缺乏深度信息的单目系统中计算出 方向上的物体距离。那么我们需要弄清楚以下几个问题:

  • 有什么样的需求

  • 有什么样的先验

  • 有什么样的地图

  • 需要做到什么样的精度

  • 能够提供什么样的精力

如果大量依赖模式识别技术来弥补深度的不足。那么模式识别是否足够健壮能满足串行生产产品的严格检测精度要求?

单目测量方案:

其一,就是通过光学几何模型(即小孔成像模型)建立测试对象世界坐标与图像像素坐标间的几何关系,结合摄像头内、外参的标定结果,便可以得到与前方车辆或障碍物间的距离;

其二,就是在通过采集的图像样本,直接回归得到图像像素坐标与车距间的函数关系,这种方法缺少必要的理论支撑,是纯粹的数据拟合方法,因此受限于拟合参数的提取精度,鲁棒性相对较差。

可通行区域

对车辆行驶的可行驶区域进行划分主要是对车辆、普通路边沿、侧石边沿、没有障碍物可见的边界、未知边界进行划分,最后输出自车可以通行的安全区域。

道路分割难点:

  • 复杂环境场景时,边界形状复杂多样,导致泛化难度较大。不同于其它的检测有明确的检测类型(如车辆、行人、交通灯),通行空间需要把本车的行驶安全区域划分出来,需要对凡是影响本车前行的障碍物边界全部划分出来,如平常不常见的水马、锥桶、坑洼路面、非水泥路面、绿化带、花砖型路面边界、十字路口、T字路口等进行划分。

  • 标定参数校正;在车辆加减速、路面颠簸、上下坡道时,会导致相机俯仰角发生变化,原有的相机标定参数不再准确,投影到世界坐标系后会出现较大的测距误差,通行空间边界会出现收缩或开放的问题。

  • 边界点的取点策略和后处理;通行空间考虑更多的是边缘处,所以边缘处的毛刺,抖动需要进行滤波处理,使边缘处更平滑。障碍物侧面边界点易被错误投影到世界坐标系,导致前车隔壁可通行的车道被认定为不可通行区域,如下图:


道路分割方案:

其一,相机标定(若能在线标定最好,精度可能会打折扣),若不能实现实时在线标定功能,增加读取车辆的IMU信息,利用车辆IMU信息获得的俯仰角自适应地调整标定参数;

其二,选取轻量级合适的语义分割网络,对需要分割的类别打标签,场景覆盖尽可能的广;使用极坐标的取点方式进行描点,并采用滤波算法平滑后处理边缘点。

车道线检测

车道线检测包括对各类单侧/双侧车道线、实线、虚线、双线检测,线型的颜色(白色/黄色/蓝色)和特殊的车道线(汇流线、减速线等)检测。如下图所示:

车道线检测难点:

  • 线型种类多,不规则路面检测车道线难度大;如遇地面积水、无效标识、修补路面、阴影情况下的车道线容易误检、漏检。

  • 上下坡、颠簸路面,车辆启停时,容易拟合出梯形、倒梯形的车道线。

  • 弯曲的车道线、远端的车道线、环岛的车道线,车道线的拟合难度较大,检测结果易闪烁;

车道线检测方案:

其一,传统的图像处理算法需经过摄像头的畸变校正,对每帧图片做透视变换,将相机拍摄的照片转到鸟瞰图视角,再通过特征算子或颜色空间来提取车道线的特征点,使用直方图、滑动窗口来做车道线曲线的拟合,传统算法最大的弊端在于场景的适应性不好。

其二,采用神经网络的方法进行车道线的检测跟通行空间检测类似,选取合适的轻量级网络,打好标签;车道线的难点在于车道线的拟合(三次方程、四次方程),所以在后处理上可以结合车辆信息(速度、加速度、转向)和传感器信息做航位推算,尽可能的使车道线拟合结果更佳。

静态物体检测

静态物体检测包括对交通红绿灯、交通标志牌等静态目标的检测识别。如下图所示:

静态物体检测难点:

  • 红绿灯、交通标识属于小物体检测,在图像中所占的像素比极少,尤其远距离的路口,识别难度更大。在强光照的情况下,人眼都难以辨别,而停在路口的斑马线前的汽车,需要对红绿灯进行正确的识别才能做下一步的判断。

  • 交通标识种类众多,采集到的数据易出现数量不均匀的情况。

  • 交通灯易受光照的影响,在不同光照条件下颜色难以区分(红灯与黄灯),且到夜晚时,红灯与路灯、商店的灯颜色相近,易造成误检;

静态物检测方案:

通过感知去识别红绿灯,效果一般,适应性差,条件允许的话(如固定园区限定场景),可以借助V2X/高精地图等信息。多个备份冗余,V2X > 高精度地图 > 感知识别。若碰上GPS信号弱的时候,可以根据感知识别的结果做预测,但是大部分情况下,V2X足以覆盖掉很多场景。


共性问题

虽然感知子任务的实现是相互独立的,但是它们之间上下游的依赖关系以及算法共性问题:

  1. 真值来源。定义,校准,分析比对,绝不是看检测结果图或帧率,需要以激光的数据或者RTK的数据作为真值来验证测距结果在不同工况(白天、雨天、遮挡等情况下)的准确性;

  2. 资源消耗。多个网络共存,多个相机共用都是要消耗cpu、gpu资源的,如何处理好这些网络的分配,多个网络的前向推理可能共用一些卷积层,能否复用;引入线程、进程的思想来处理各个模块,更高效的处理协调各个功能块;在多相机读取这一块,做到多目输入的同时不损失帧率,在相机码流的编解码上做些工作。

  3. 多目融合。一般在汽车上会配备4个(前、后、左、右)四个相机,对于同一物体从汽车的后方移动到前方,即后视相机可以看到,再移至侧视相机能看到,最后移至前视相机能看到,在这个过程中,物体的id应保持不变(同一个物体,不因相机观测的变化而改变)、距离信息跳变不宜过大(切换到不同相机,给出的距离偏差不宜太大,)

  4. 场景定义。针对不同的感知模块,需要对数据集即场景定义做明确的划分,这样在做算法验证的时候针对性更强;如对于动态物体检测,可以划分车辆静止时的检测场景和车辆运动时的场景。对于交通灯的检测,可以进一步细分为左转红绿灯场景、直行红绿灯、掉头红绿灯等特定场景。公用数据集与专有数据集的验证。


模块架构

目前开源的感知框架Apollo和Autoware,不少研究人员或者中小公司的感知系统开发会借鉴其中的思想,所以在这里介绍一下Apollo感知系统的模块组成。

相机输入-->图像的预处理-->神经网络-->多个分支(红绿灯识别、车道线识别、2D物体识别转3D)-->后处理-->输出结果(输出物体类型、距离、速度代表被检测物的朝向)

即输入摄像头的数据,以每帧信息为基础进行检测、分类、分割等计算,最后利用多帧信息进行多目标跟踪,输出相关结果。整个感知流程图如下:

上述核心环节仍是神经网络算法,它的精度、速度、硬件资源利用率都是需要衡量考虑的指标,哪一个环节做好都不容易,物体检测最容易误检或漏检、车道线检测拟合4次方程曲线不容易、红绿灯这类小物体检测难度大(现有路口长度动则50米以上),通行空间的边界点要求高。
转载自知乎@老司机带我飞,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,我们将及时处理。

-- END --

智驾最前沿 「智驾最前沿」深耕自动驾驶领域技术、资讯等信息,解读行业现状、紧盯行业发展、挖掘行业前沿,致力于助力自动驾驶发展与落地!公众号:智驾最前沿
评论 (0)
  •   陆地边防事件紧急处置系统平台解析   北京华盛恒辉陆地边防事件紧急处置系统平台是整合监测、预警、指挥等功能的智能化综合系统,致力于增强边防安全管控能力,快速响应各类突发事件。以下从系统架构、核心功能、技术支撑、应用场景及发展趋势展开全面解读。   应用案例   目前,已有多个陆地边防事件紧急处置系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润陆地边防事件紧急处置系统。这些成功案例为陆地边防事件紧急处置系统的推广和应用提供了有力支持。   一、系统架构   感知层:部
    华盛恒辉l58ll334744 2025-04-23 11:22 93浏览
  •   电磁频谱数据综合管理平台系统解析   一、系统定义与目标   北京华盛恒辉电磁频谱数据综合管理平台融合无线传感器、软件定义电台等前沿技术,是实现无线电频谱资源全流程管理的复杂系统。其核心目标包括:优化频谱资源配置,满足多元通信需求;运用动态管理与频谱共享技术,提升资源利用效率;强化频谱安全监管,杜绝非法占用与干扰;为电子战提供频谱监测分析支持,辅助作战决策。   应用案例   目前,已有多个电磁频谱数据综合管理平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁频谱数
    华盛恒辉l58ll334744 2025-04-23 16:27 101浏览
  • 文/Leon编辑/cc孙聪颖‍4月18日7时,2025北京亦庄半程马拉松暨人形机器人半程马拉松正式开跑。与普通的半马比赛不同,这次比赛除了有人类选手,还有21支人形机器人队伍参赛,带来了全球首次人类与机器人共同竞技的盛况。参赛队伍中,不乏明星机器人企业及机型,比如北京人形机器人创新中心的天工Ultra、松延动力的N2等。宇树G1、众擎PM01,则是由城市之间科技有限公司购置及调试,并非厂商直接参赛。考虑到机器人的适用场景和续航力各有不同,其赛制也与人类选手做出区别:每支赛队最多可安排3名参赛选手
    华尔街科技眼 2025-04-22 20:10 89浏览
  •   无人机结构仿真与部件拆解分析系统平台解析   北京华盛恒辉无人机结构仿真与部件拆解分析系统无人机技术快速发展的当下,结构仿真与部件拆解分析系统平台成为无人机研发测试的核心工具,在优化设计、提升性能、降低成本等方面发挥关键作用。以下从功能、架构、应用、优势及趋势展开解析。   应用案例   目前,已有多个无人机结构仿真与部件拆解分析系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机结构仿真与部件拆解分析系统。这些成功案例为无人机结构仿真与部件拆解分析系统的推广和应用提
    华盛恒辉l58ll334744 2025-04-23 15:00 120浏览
  • 故障现象一辆2016款奔驰C200L车,搭载274 920发动机,累计行驶里程约为13万km。该车组合仪表上的防侧滑故障灯、转向助力故障灯、安全气囊故障灯等偶尔异常点亮,且此时将挡位置于R挡,中控显示屏提示“后视摄像头不可用”,无法显示倒车影像。 故障诊断用故障检测仪检测,发现多个控制单元中均存储有通信类故障代码(图1),其中故障代码“U015587 与仪表盘的通信存在故障。信息缺失”出现的频次较高。 图1 存储的故障代码1而组合仪表中存储有故障代码“U006488 与用户界
    虹科Pico汽车示波器 2025-04-23 11:22 57浏览
  • 在科技飞速发展的当下,机器人领域的每一次突破都能成为大众瞩目的焦点。这不,全球首届人形机器人半程马拉松比赛刚落下帷幕,赛场上的 “小插曲” 就掀起了一阵网络热潮。4月19日,北京亦庄的赛道上热闹非凡,全球首届人形机器人半程马拉松在这里激情开跑。20支机器人队伍带着各自的“参赛选手”,踏上了这21.0975公里的挑战之路。这场比赛可不简单,它将机器人放置于真实且复杂的动态路况与环境中,对机器人在运动控制、环境感知和能源管理等方面的核心技术能力进行了全方位的检验。不仅要应对长距离带来的续航挑战,还要
    用户1742991715177 2025-04-22 20:42 83浏览
  • 前言本文主要演示基于TL3576-MiniEVM评估板HDMI OUT、DP 1.4和MIPI的多屏同显、异显方案,适用开发环境如下。Windows开发环境:Windows 7 64bit、Windows 10 64bitLinux开发环境:VMware16.2.5、Ubuntu22.04.5 64bitU-Boot:U-Boot-2017.09Kernel:Linux-6.1.115LinuxSDK:LinuxSDK-[版本号](基于rk3576_linux6.1_release_v
    Tronlong 2025-04-23 13:59 76浏览
  •   后勤实验仿真系统平台深度解析   北京华盛恒辉后勤实验仿真系统平台依托计算机仿真技术,是对后勤保障全流程进行模拟、分析与优化的综合性工具。通过搭建虚拟场景,模拟资源调配、物资运输等环节,为后勤决策提供数据支撑,广泛应用于军事、应急管理等领域。   应用案例   目前,已有多个后勤实验仿真系统平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润后勤实验仿真系统平台。这些成功案例为后勤实验仿真系统平台的推广和应用提供了有力支持。   一、核心功能   (一)后勤资源模拟
    华盛恒辉l58ll334744 2025-04-23 15:39 81浏览
  • 一、行业背景与市场需求高血压作为全球发病率最高的慢性病之一,其早期监测与管理已成为公共卫生领域的重要课题。世界卫生组织数据显示,全球超13亿人受高血压困扰,且患者群体呈现年轻化趋势。传统血压计因功能单一、数据孤立等缺陷,难以满足现代健康管理的需求。在此背景下,集语音播报、蓝牙传输、电量检测于一体的智能血压计应运而生,通过技术创新实现“测量-分析-管理”全流程智能化,成为慢性病管理的核心终端设备。二、技术架构与核心功能智能血压计以电子血压测量技术为基础,融合物联网、AI算法及语音交互技术,构建起多
    广州唯创电子 2025-04-23 09:06 126浏览
  • 一、技术背景与市场机遇在智能家居高速发展的今天,用户对家电设备的安全性、智能化及能效表现提出更高要求。传统取暖器因缺乏智能感知功能,存在能源浪费、安全隐患等痛点。WTL580-C01微波雷达感应模块的诞生,为取暖设备智能化升级提供了创新解决方案。该模块凭借微波雷达技术优势,在精准测距、环境适应、能耗控制等方面实现突破,成为智能取暖器领域的核心技术组件。二、核心技术原理本模块采用多普勒效应微波雷达技术,通过24GHz高频微波信号的发射-接收机制,实现毫米级动作识别和精准测距。当人体进入4-5米有效
    广州唯创电子 2025-04-23 08:41 119浏览
  •   复杂电磁环境模拟系统平台解析   一、系统概述   北京华盛恒辉复杂电磁环境模拟系统平台是用于还原真实战场或特定场景电磁环境的综合性技术平台。该平台借助软硬件协同运作,能够产生多源、多频段、多体制的电磁信号,并融合空间、时间、频谱等参数,构建高逼真度的电磁环境,为电子对抗、通信、雷达等系统的研发、测试、训练及评估工作提供重要支持。   应用案例   目前,已有多个复杂电磁环境模拟系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润复杂电磁环境模拟系统。这些成功案例为复杂电
    华盛恒辉l58ll334744 2025-04-23 10:29 126浏览
  • 文/Leon编辑/cc孙聪颖‍在特朗普政府发起的关税战中,全球芯片产业受到巨大冲击,美国芯片企业首当其冲。据报道称,英伟达本周二公布的8-K文件显示,美国政府通知该公司向中国(包括中国香港及澳门)销售尖端芯片(H20)时,需要获得美国政府的许可。文件发布后,英伟达预计会在第一季度中额外增加55亿美元的相关费用计提。随后,英伟达股价单日下跌6.9%,市值一夜蒸发约1890亿美元(约合人民币1.37万亿元)。至截稿时,至截稿时,其股价未见止跌,较前日下跌4.51%。北京时间4月17日,英伟达创始人、
    华尔街科技眼 2025-04-22 20:14 87浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦