OPPO布局自动驾驶?基于语义地图的自动驾驶汽车单目定位!

智能汽车设计 2024-07-15 07:51

论文标题:

Monocular Localization with Semantics Map for Autonomous Vehicles

论文作者:

Jixiang Wan, Xudong Zhang, Shuzhou Dong, Yuwei Zhang, Yuchen Yang, Ruoxi Wu, Ye Jiang, Jijunnan Li, Jinquan Lin, Ming Yang

作者单位:OPPO研究院、上海交通大学

编译:蒙牛二锅头

审核:Los


导读:


该研究提出一种轻量级视觉语义定位算法,以解决自动驾驶中的定位难题。算法使用稳定语义特征替代易变的纹理特征,通过离线构建语义地图并在线关联实时数据进行定位,提高了定位的准确性和效率。实验验证表明,该方法适用于多种自动驾驶场景,是可靠的定位技术。©️【深蓝AI】编译



对于自动驾驶汽车而言,实现精确且鲁棒的定位依旧是当下的一个重大挑战。传感器的成本以及本地计算效率的局限性,使得该技术难以扩展到大规模的商业应用中。传统的基于视觉的方法侧重于易受光照、季节、视角和外观变化影响的纹理特征。此外,带有描述符的地图的庞大存储容量及复杂的优化过程也阻碍了系统性能。为了平衡效率与准确性,本文提出了一种新颖的轻量级视觉语义定位算法,该算法采用稳定的语义特征而非低级别的纹理特征。首先,通过摄像头或LiDAR传感器检测地面标记、车道线、柱子等语义对象,在离线状态下构建语义地图。随后,通过在线关联视觉数据中的语义特征与地图对象来进行实时定位。本文在公开的KAIST城市数据集以及本文自行记录的场景中评估了提出的定位框架。实验结果表明,本文的方法在多种自动驾驶定位任务中是一种可靠且实用的解决方案。



自动驾驶技术近期备受关注,核心在于自我定位,对安全、路径规划至关重要,但需平衡成本与精度。GPS-RTK与LiDAR虽精度高,成本问题限制其普及,故转向成本效益好的视觉传感器,特别是摄像头。


视觉定位技术,特别是PnP问题解决,依赖预建3D地图与2D图像特征匹配,需高度稳定一致的特征。深度学习推进了特征描述与匹配优化,端到端姿态估计展现潜力,但新环境适应性待测。语义信息融合被视为提高定位精度与鲁棒性的关键,尤其在复杂城市环境,利用稳定语义特征如车道线简化计算并强化定位。


研究表明,语义信息集成极大提升定位准确性和鲁棒性,优化视觉特征并减小计算开销,自动驾驶中,通过检测语义对象如车道线实现高效定位。这些语义特征在城市环境普遍存在,且在多变条件下稳定性强,相比传统特征。构建语义地图采用语义对象而非密集点,降低了地图的存储与传输成本。


将当前观测到的语义线索与语义地图中的元素关联起来,为自动驾驶单目视觉定位提供了极具前景的解决方案。然而,这样的做法面临几个挑战:


1)标准矢量高清晰度(HD)地图通常需要专门的数据采集设备和大量人力进行标注;


2)由于维度降级缺陷,将2D图像中的目标正确转换为3D真实形状是一个难题。


因此,本文提出了一种面向自动驾驶的轻量级视觉定位流程,包括无需人工注释的语义地图构造器和使用低成本摄像头及IMU设备的定位模块。本文的主要贡献总结如下:


本文提出了一种增强型逆透视映射模型,考虑了相机旋转,可在运动中准确计算鸟瞰图;


本文提出了一种算法,利用常规LiDAR并最少的人工辅助或监督来构建全局语义地图;


本文提出了一种基于常见道路视觉语义特征的单目定位算法,并在实际交通场景中验证了其有效性。



3.1 视觉定位


●VINS和ORB-SLAM是常见的视觉SLAM框架,整合了特征点处理、关键帧优化、回环检测等模块,实现精确轨迹估计,但面对大规模城市环境实时定位仍具挑战。


●Hloc构建了包含图像检索、特征匹配和姿态估计的全局定位框架,而LaneLoc、TM3Loc、RSCM、Dt-loc和LAVIL等方法分别通过利用车道线、高清地图语义地标、形状分类、距离变换及结合LiDAR里程计等策略,探索提升定位精度与效率,同时强调降低预构建地图的人工成本。


3.2 雷达SLAM


●LiDAR技术因能直接获取物体的真实尺度和位置信息,极大地促进了高精度语义地图的构建。


●LOAM算法开始,后续发展如Lego-LOAM通过剔除地面点和加入回环检测减小计算量与漂移,LIOM引入IMU预积分实现紧耦合SLAM,FAST-LIO系列则通过IMU辅助减少运动畸变,优化计算效率,并在FAST-LIO2中提出增量k-d树数据结构,进一步提升了大规模点云处理的效率。



本文介绍了一种基于语义地图的视觉定位方法,如图1所示。系统包含两部分:


1)生成全局语义地图:采集车辆(LIDAR、GPS-RTK、IMU)数据,LiDAR SLAM建点云图,提取特征构建语义地图;


2)定位:CNN从摄像头图像提取语义信息,IPM处理地面像素建局部图并与全局语义图对齐。杆状物投影至图像线匹配,最小化重投影误差确定6DOF车辆姿态。


图1|系统结构示意图©️【深蓝AI】编译


4.1 语义地图


通过在位姿图优化模块中融合GPS-RTK信息改进的FAST-LIO2算法,确保了全局位置精度,LiDAR收集的数据被注册为高精度点云地图。从点云中分割出杆状语义特征,并利用欧几里得聚类和RANSAC线性拟合提取每个杆的两端点。地面点云通过预训练的KPConv模型和平面生长法提取。为了准确分割地面标记,本文将KPConv分割结果投影到俯视图(BEV)平面上,将路面点云的反射率视为像素值。此处采用OTSU算法进一步二值化反射率值,以便清晰分离车道标记和路面。最后,利用3D点云与BEV图像之间的映射关系,将分割结果反投影回3D点云中,实现相关元素的三维空间语义分割,如图2所示:(a)为原始点云地图。(b)是由LiDAR SLAM产生的地面点云。(c)给出了一个俯视图(BEV)图像示例,其中每个像素代表一个10厘米的体素。(d)展示了OTSU二值化结果,该结果保留了道路上的高对比度特征,包括车道线和路面标记。


图2|展示了点云地图生成及俯视图分割的过程©️【深蓝AI】编译


4.2 图像分割


采用轻量级的BiSeNetV2模型对图像进行语义分类,主要分为地面标记、杆状物和背景三类。为了提升效率,使用OpenCV提取地面标记轮廓代替全图语义掩模,并对杆状物实例应用最小二乘法拟合为直线,便于后续距离计算。图3展示了这一过程在实际交通场景中的应用效果。(a)是由前视摄像头捕捉的原始图像。(b)是语义分割的结果。其中,橙色像素和灰色像素分别代表地面标记和杆状物。绿色像素着重标示出地面标记的轮廓,而红色像素则标识出了杆状物拟合的直线。需要注意的是,为了减少噪声干扰,较短的杆状物已被排除在处理之外。


图3|为图像分割说明©️【深蓝AI】编译


4.3 逆透视变换


该步骤将图像中分割出的地面标记转换到车辆坐标系下,通过针孔摄像机模型原理完成从地面点到图像点的投影,如图4所示,这一转换对于后续的视觉定位至关重要。


图4|基本逆透视映射(IPM)模型的示意图©️【深蓝AI】编译


实际驾驶场景中,移动车辆的偏转角度通过集成IMU数据进行计算。随后,使用带有旋转补偿的IPM模型计算特定像素的投影坐标,以精确恢复它们在空间中的3D位置。图6(a)展示了未经补偿的标准IPM模型所产生的扭曲的俯视图(BEV)图像。相反,图6(b)呈现了经过角度补偿的增强型IPM模型的结果。这说明即使在行驶过程中角度发生微小变化,也会在俯视图图像中产生显著的扭曲现象。


图5|(a) 是通过基础IPM转换得到的俯视图(BEV)图像;(b) 是在考虑了偏转角度补偿(roll, pitch, yaw = (0.8°, −1.9°, −1.2°))后的增强型IPM结果©️【深蓝AI】编译


4.4 优化求解器


在对第帧图像的姿态进行优化之前,必须准备好车辆状态信息,这包括先前的姿态以及地面标记和杆状特征的位置。然后使用迭代非线性优化方法,将当前特征与全局语义地图进行匹配,从而得出车辆的当前位置。


先前姿态(Prior Pose)


Vins-mono提出了一种视觉惯性测距(VIO)方法,能够提供车辆的相对位置和旋转信息。为提高先前姿态的准确性,计算第帧与帧之间的相对姿态变换,并将其融入到前一帧的语义定位结果中。这样做有助于减少由IMU积分累积造成的误差。第帧的先前姿态,记为,可以通过以下公式表达:



其中,表示通过本文的语义定位算法获得的前一帧的定位结果;分别是对应帧的VIO输出结果。


地面标记表示


在第帧图像中,本文保留了地面标记轮廓的像素。将车道线轮廓中的个点的位置指定为,其中代表像素坐标。因此,车道线点在车辆坐标系中的表示为:




其中,矩阵是从坐标系的外部参数,保持恒定。代表IPM模型。


鉴于单个图像有限的视野和分割噪声,本文采用滑动窗口积累多帧车道数据。本文生成由最近帧地面特征组成的局部语义地图,并限制其大小不超过50米。随后,利用先验姿态,将局部地图转换到世界坐标系中。通过构建全局语义地图的KD树,搜索附近的点,公式表述如下:



左右滑动查看完整公式→


最终,本文仅考虑距离小于某一阈值(例如1米)的邻近点。损失函数计算如下:



左右滑动查看完整公式→


其中,表示使用语义地图中最邻近的5个点拟合的直线,而用于衡量点到直线的距离。


杆状物体表示


当地面标记不可见时,仅依赖于平行的车道线无法为车辆前进方向提供有效的约束。杆状物体(如杆子、灯柱、树干等)是笔直且垂直于地面的,可以用来解决这个问题。


本文在语义地图中使用端点对来表示个杆状物体,记为,每个杆状物体由两个端点表示。此外,这些杆状物体借助于先验姿态和投影函数被投影到第k帧图像中,形成




其中,是杆状物体点在相机坐标系中的z坐标。


对于投影到图像上的每个端点,本文找到由杆状物体分割结果拟合的最近直线。从端点到相应拟合直线的距离被计算为残差。




最后,最优的全局一致性匹配是一个非线性最小二乘问题,本文采用带有LM算法的Ceres求解器来求解车辆的姿态。





5.1 数据集


本文使用两个自动驾驶视觉定位的数据集:


1)KAIST数据集,包含城市复杂环境的多种传感器数据,适用于多种驾驶场景;


2)自主研发数据集,涵盖重庆6公里道路网,由自动驾驶车辆搭载多传感器采集,用以构建地图和定位验证,GPS-RTK数据作为定位基准。


图7中,图(a)显示了本文自记录数据集中工业园区区域的卫星地图。图(b)是工业园区的全局语义地图,其中地面标记以黄色绘制,杆状物的端点以红色标出。蓝色框表示缺少足够车道语义信息的区域。图(c)是在工业园区场景中实时姿态优化的视觉示例。图(d)展示的是公共道路的情况。


图7|展示了定性结果的说明©️【深蓝AI】编译


5.2 视觉定位精度


为评估系统性能,本文对比了CL+PA、PC semantic、fusion SFM等语义定位算法,测试基于KAIST数据集,依据基准标准评价x、y定位及航向角精度,采用ATE的RMSE为指标,含RMSE平移与旋转。表1显示,本文的算法在各场景与基线相比,定位精度相当。


表1|KAIST城市数据集的RMSE结果©️【深蓝AI】编译


为进一步评估本文系统的有效性和泛化能力,本文基于自录数据集进行了一项实验,并将本文的算法与最先进的视觉定位工具箱Hloc进行了对比。与Hloc详细对比的结果见表2。


表2|提案算法在自记录数据集上的性能对比©️【深蓝AI】编译


Hloc针对公园数据集需4.5GB colmap地图数据,而本文的系统仅需2MB语义点云地图,即便如此,本文系统在平移与旋转精度上超越基线。工业区定位精度受车道线缺失影响低于公共道路(图7b),Hloc则利用密集建筑在开阔道路表现更佳。图7c-d展示了算法在不同场景的实时定位示例。图8揭示了定位误差分布,水平误差集中、趋近零,证明车道线,尤其是主车道线,对横向定位有强约束。垂直方向与航向角误差较大,或因杆状物监控不足。


图8|展示了定位误差在垂直方向、水平方向以及航向角上的概率分布图©️【深蓝AI】编译


为了详细评估每个提议特征的有效性,本文在公共道路数据集上进行了消融研究。为了与VIO结果公平对比,本文也采用了EVO计算相对姿态误差(RPE),如表3所示。本文的方法通过融入全局地图消除了VIO的累积漂移误差,使得平移RMSE达到0.492米,这对于自动驾驶任务是可以接受的。有趣的是,无论是在RPE方面,语义地图中的车道线和杆状物特征都优于基线,表明视觉特征有助于实现更高效和鲁棒的定位精度。


表3|不同方法在公共道路数据集上的验证结果©️【深蓝AI】编译



本研究提出一种自动驾驶视觉定位系统,依托LiDAR构建语义地图,利用地面标记、车道线等特征进行车辆定位。系统在复杂交通实测中展现了较基线更高的定位精准度(平移与旋转)。未来研究方向将探索集成GPS等低成本传感器,以增强在复杂场景下的定位鲁棒性。


END

智能汽车设计 关注智能汽车发展,分享智能汽车知识!
评论 (0)
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 309浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 380浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 190浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 143浏览
  • 2024年初,OpenAI公布的Sora AI视频生成模型,震撼了国产大模型行业。随后国产厂商集体发力视频大模型,快手发布视频生成大模型可灵,字节跳动发布豆包视频生成模型,正式打响了国内AI视频生成领域第一枪。众多企业匆忙入局,只为在这片新兴市场中抢占先机,却往往忽视了技术成熟度与应用规范的打磨。以社交平台上泛滥的 AI 伪造视频为例,全红婵家人被恶意仿冒博流量卖货,明星们也纷纷中招,刘晓庆、张馨予等均曾反馈有人在视频号上通过AI生成视频假冒她。这些伪造视频不仅严重侵犯他人权
    用户1742991715177 2025-05-05 23:08 82浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 264浏览
  • 5小时自学修好BIOS卡住问题  更换硬盘故障现象:f2、f12均失效,只有ESC和开关机键可用。错误页面:经过AI的故障截图询问,确定是机体内灰尘太多,和硬盘损坏造成,开机卡在BIOS。经过亲手拆螺丝和壳体、排线,跟换了新的2.5寸硬盘,故障排除。理论依据:以下是针对“5小时自学修好BIOS卡住问题+更换硬盘”的综合性解决方案,结合硬件操作和BIOS设置调整,分步骤说明:一、判断BIOS卡住的原因1. 初步排查     拔掉多余硬件:断开所有外接设备(如
    丙丁先生 2025-05-04 09:14 118浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 389浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 150浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 71浏览
  • 某国产固态电解的2次和3次谐波失真相当好,值得一试。(仅供参考)现在国产固态电解的性能跟上来了,值得一试。当然不是随便搞低端的那种。电容器对音质的影响_电子基础-面包板社区  https://mbb.eet-china.com/forum/topic/150182_1_1.html (右键复制链接打开)电容器对音质的影响相当大。电容器在音频系统中的角色不可忽视,它们能够调整系统增益、提供合适的偏置、抑制电源噪声并隔离直流成分。然而,在便携式设备中,由于空间、成本的限
    bruce小肥羊 2025-05-04 18:14 235浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 207浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 89浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 210浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦