BEV在线实时局部地图构建的经典方案盘点

智驾最前沿 2023-08-13 08:01

--关注、星标、回复“智驾圈子”--

↓↓查看:「智驾最前沿」智驾圈子资料目录↓↓

众所周知,由于离线高精地图High-Definition Map(HDMap)制作成本高昂,且难以实时更新,基于自车实时感知生成的在线局部地图已经逐渐成为替代解决方案或是冗余方案,因为离线地图精度较高且具备全局信息,在线地图虽然不具备全局信息但具有实时性,二者可以互为补充。

欢迎关注「智驾最前沿」微信视频号

博主在这个领域做了简要的调研,总结比较经典的方案主要有三个:清华赵行MARS Lab(和这个组杠上了)的HDMapNet, VectorMap,和华中科技大学与地平线合作的MapTR,觉得三个模型在框架和思路上也有内在联系和演进的过程,并且和BEV动态目标检测也有相通之处,在此做个简要的对比和分析,并加入自己的思考。

首先,传统在线局部地图生成方式大多基于多个透视视角的语义分割,通过IPM投影和拼接等方式转换为鸟瞰视角,再经过比较复杂的后处理得到最终需要的地图要素和拓扑结构,这里不做过多介绍。BEV范式出现后,可以先通过多种方法得到BEV feature,然后在BEV feature上进行后续操作,使整个过程简洁了很多。HDMapNet 是相对较早的BEV在线局部地图构建方案。


HDMapNet (2022.3)[1]

[1] HDMapNet: An Online HD Map Construction and Evaluation Framework

HDMapNet框架

HDMapNet延续了传统方法上基于语义分割的思路。首先使用VPN[2]方法生成BEV Feature,然后地图head分为三个分支,第一个给出在bev feature上做语义分割的结果,将关注的车道线,道路边线,路口等作出分割,这个比较好理解,但是只有分割结果肯定是不够的,我们知道在高精地图的表达形式中,车道线等地图要素是用实例(Instance)来表示的,具体在车道线上代表一段车道线,内部由线段上具有一定顺序的点来表示,实例之间也存在一定的拓扑关系,所以我们需要的是一个由实例构成的适量图。这里作者通过后两个分支和后处理来得到需要的结果。

[2] https://arxiv.org/abs/1906.03560

第二个分支给出实例嵌入(Instance embedding),论文里面介绍比较详细,我的理解是为BEV Feature的每个像素分配一个embedding,类似于NLP中的词向量,通过损失函数的设计,最终训练出属于同一实例相似度较高,不属于同一势力相似度较低的embedding,后续通过对embedding进行相似性度量,即可区分出不同的实例。参考上图对instance embedding的可视化。第三个分支会给出车道线上每个点的方向,这个方向是由相邻两个点的连线方向确定的,并且可以有两种可能性,模型都会给出,并且只有真正落在车道线中心的点才给出方向,这一点通过在训练阶段将不落在车道线中心的点的方向真值赋为0来实现。

有了语义分割,实例嵌入和方向,即可在后处理阶段建立三者的联系,最终给出矢量地图。可以看出这种方法是比较直观,容易理解的,但劣势也是显而易见的,计算量较大,耗时较长,且不够End-to-End,部署难度高,缺少了BEV范式的优美气质,但作为基线也是很难得了。

那能不能通过模型直接得到矢量地图而不需要后处理呢?(感觉各个方向的演进都是这个套路)赵行大佬最后给出了VectorMapNet。


VectorMapNet(2022)[3]

[3] VectorMapNet: End-to-end Vectorized HD Map Learning

VectorMapNet

VectorMapNet摒弃了通过语义分割得到地图的思路,而是使用目标检测的思路(不知道是不是第一个这样做的),将不规则的地图要素实例抽象成几个关键点(可以是bounding box,最大最小值,起点中点终点等等),这样就和目标检测的范式对齐了!是不是很惊艳。当然只有关键点肯定是不够的,论文中后续通过Polyline Generator,即生成的方式逐个得到最终需要的有序点集,不需要后处理,实现了端到端生成矢量地图。

地图要素的关键点

具体来讲,VectorMapNet主要分为三个阶段,第一阶段是通过多高度(−1m, 0m, 1m, 2m)的IPM方式对地图要素投影到BEV空间,这里应该是利用地图要素静态且稳定的特点,没有使用现在流行的基于学习的方式。第二阶段即地图要素检测阶段,使用了经典的DETR[4]和Deformable DETR[5]范式,得到地图要素的关键点,只是这里query的设计比较特殊。在动态目标检测中,我们一般只需要定义几百个地位相同的query,直接输入transformer就可以,但地图要素和动态目标有点不同,我们首先要给出一定数量(数量一般不会很多)的实例,假设最多m个,每个实例又包括一定数量的关键点,假设固定n个,最终需要得到m*n个点,但这些点不是相互独立的,而是有一个二级的继承关系。

如果我们设定每个query预测一个点,一共需要定义m*n个query, 如果直接把m*n个query输入transformer,结果肯定无法体现这种继承关系。文中给出一个比较巧妙的方法,即先定义m个实例query,假设维度为dim, 大小为m * dim, 再定义n个关键点query, 大小为n* dim,使用广播的方式让二者相加,即可得到m*n个同时拥有实例信息和关键点信息的query,依次输入transformer。由于属于同一个instance的query实际上代表一个整体,只能有一种类别,所以类别分支输入的是同一个instance的query的平均值,得到分类score。最终筛选出score高于阈值的多组query,即可得到我们需要的二级结果。

[4] End-to-End Object Detection with Transformers

[5] Deformable DETR: Deformable Transformers for End-to-End Object Detection

说到这里,熟悉DETR的同学肯定会想到,为什么要这么麻烦呢,我们只定义m个实例query,让每个query预测n个关键点不就可以吗,为什么要一个query预测一个关键点,定义两级的query呢,我的第一反应也是这个,但仔细想一下,地图要素和动态目标的区别还是很明显的。

首先一帧图片中的地图元素实例不可能很多的,一般只有几个或更多一点,我们没有必要定义过多的query,多了反而可能影响效果,这样限制了query的数量。

其次,每个实例由于长度比较长,且形状不规则,内部信息其实是比较多的,这样每个关键点相对独立,不像动态目标形状比较规则,每个关键点具有强相关性,只需要定义多个query即可覆盖多种目标的信息。所以如果地图元素检测只定义比较少的m个实例query不是不可以,效果肯定会差一点,作者应该也有这样的考虑。而且如果每个实例不是对应少量关键点而是多个点,两种方法的区别会更加明显。

第三阶段是Polyline生成阶段,关于生成(Generator)的领域,也就是现在大火的GPT-4的基础技术博主了解不是很多,简单地说就是通过自回归的方式,从第二阶段的关键点生成完整的地图要素有序点集。这里点集中点的数量是不固定的,通过生成End of Sequence token (EOS)标志位代表结束,也是类似于NLP的技术,可见目前NLP和cv的结合越来越紧密,因为内核都用了同样的transformer大杀器。数量不固定是生成方法的优势,可以表征不同长度的地图要素,但它的劣势就是生成过程是序列性的,只能做到多个instance的并行,instance内部无法并行,降低了效率。还有一个隐藏的劣势就是有序性,其实地图要素的点虽然是有序的,但起点不是唯一的,例如车道线可以有两种起点,闭合的元素如路口,任意一个点都可以作为起点,而生成的方式只能有唯一的起点,相当于对此做了不必要且不合理的约束,对结果肯定有一定的影响。

有没有更加简洁而合理的方案呢?那就是下面的MapTR了。


MapTR(2023.1)[6]

[6] MapTR: Structured Modeling and Learning for Online Vectorized HD Map ConstructionMap

TRMapTR

可以说和VectorMapNet联系相当紧密了,从大的框架来看,本质上其实就是只使用了VectorMapNet的地图要素检测模块,而丢弃了后面的生成模块。也就是说,MapTR没有先生成地图要素关键点,而是直接使用基于DETR和Deformable DETR的目标检测方式生成最终的地图要素点,但是是固定长度的,文中是20个点。query的设计方式与VectorMapNet完全一致。根据上文的分析,如果只设计m个实例query,那一个query需要预测20个毫无规则的点,显然信息量是不够的,所以二级query的方式更加显得有必要。

当然MapTR相比于VectorMapNet还有其他的改进。第一,它是permutation-equivalent,类似于平移不变性。这是相对于VectorMapNet用生成的方式只能得到唯一的顺序,MapTR去掉了这个不合理的约束。具体方案是将地图要素分为两类处理,一类是Polyline,即开放的要素,一类是Polygon,即封闭的要素,二者通过起点终点的距离来区分。对于Polyline,支持两种方向,因为起点有两种可能,对于Polygon,支持2k种方向(k代表点集的大小),因为起点有k种可能。将Polyline和Polygon的gt都设计成2k大小(Polyline进行padding),使预测值与每一种gt都进行匹配,取误差最小的一种作为匹配结果,这就去掉了顺序唯一的约束。实验表明permutation-equivalent机制的确有较大提升。

MapTR两类地图元素

permutation-equivalent提升效果

permutation-equivalent图示

第二是训练阶段在匈牙利匹配过程中也分为两级,先进行instance级的匹配,匹配成功的再进行point级的匹配,一是更符合二级query的设定,第二也是为了保证一定的顺序(2种和2k种),并且做到permutation-equivalent。而VectorMapNet由于只检测关键点,不涉及顺序,所以只要一次匹配就可以。

另外MapTR使用了GKT[7]作为多视角图像得到BEV feature的方式,文中说效率高且容易部署。

[7] Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer

下面是三种经典方案的效果对比:

结果对比

可见MapTR无论精度还是效率都比前两种有显著的提升,且整个框架简洁优美端到端,可以说是目前BEV在线局部地图领域非常优秀的方案了.这个领域博主其实也是刚刚接触,没想到绕来绕去又绕回DETR了,有个感慨是一切皆可BEV,一切皆可DETR,还有什么是一个优秀的query得不到的呢?大家有其他优秀见解欢迎留言讨论。最后上一张MapTR的效果图。

mapTR效果

转载自自动驾驶之心,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,我们将及时处理。

-- END --

智驾最前沿 「智驾最前沿」深耕自动驾驶领域技术、资讯等信息,解读行业现状、紧盯行业发展、挖掘行业前沿,致力于助力自动驾驶发展与落地!公众号:智驾最前沿
评论
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 137浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 230浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 360浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 207浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 697浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 180浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 138浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 604浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 115浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 278浏览
  • 故障现象 一辆2007款日产天籁车,搭载VQ23发动机(气缸编号如图1所示,点火顺序为1-2-3-4-5-6),累计行驶里程约为21万km。车主反映,该车起步加速时偶尔抖动,且行驶中加速无力。 图1 VQ23发动机的气缸编号 故障诊断接车后试车,发动机怠速运转平稳,但只要换挡起步,稍微踩下一点加速踏板,就能感觉到车身明显抖动。用故障检测仪检测,发动机控制模块(ECM)无故障代码存储,且无失火数据流。用虹科Pico汽车示波器测量气缸1点火信号(COP点火信号)和曲轴位置传感器信
    虹科Pico汽车示波器 2025-01-23 10:46 42浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 109浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 143浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 184浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 276浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦