↓↓关注回复“资料”,领取特斯拉专利技术解析报告↓↓在自动驾驶发展的历程中,视觉算法的应用已经成为不可或缺的一部分。但当前的视觉算法仍然存在着一些局限性:一方面,相机容易受到光线明暗突变、逆光等影响;另一方面,相机在运行时,产生的数据量非常大,因而对算力的要求特别高。如今,市场上出现一种新型相机传感器,或可以有效解决上述这些痛点,那就是事件相机。事件相机具备极快的响应速度、减少无效信息、降低算力和功耗、高动态范围等优势,可以帮助自动驾驶车辆降低信息处理的复杂度、提高车辆的行驶安全,并能够在极亮或者极暗环境下正常工作。本文将从3个方面详述事件相机,包括什么是事件相机、商业模式与竞争格局、商业化前景。一、什么是事件相机
1.1 定义
事件相机最初的技术来自苏黎世,又被称为仿生视觉传感器,是一种受生物启发的视觉传感器,早期应用于无人机、机器人、航空航天等。如同人眼一般,事件相机对运动物体的感知非常灵敏,能够高效地处理动态和静态信息。事件相机是相比于传统的帧相机而言的:帧相机是以固定帧率输出一帧一帧的图片,并最终组成视频流;而事件相机只记录亮度变化的像素点。有人会有疑惑,那何谓“事件”?这里的“事件”并不是字面意义上的事件,而是把事件相机所记录下的一个个像素点的光强变化称之为“事件”。事件相机相较于传统帧相机而言,主要具有响应速度快、减少无效信息、降低算力和功耗、高动态范围的优势。帧相机始终输出的是一张张的帧图像,面对突然横穿的行人时,其响应速度不一定会及时,比如第一帧图像显示行人在左边,第二帧图像显示在中间,第三帧图像显示在右边,结合三张图像才能判断出一个行人横穿的场景;而事件相机的识别频率非常高,相当于达到了1000帧的帧相机效果,能够更快地预判到行人横穿。
帧相机会产生大量的无效信息;而事件相机是根据物体表面的光强变化而产生事件流。
某传感器公司专家解释道:“事件相机显示的主要是前方运动物体的外边框,由于变化的部分主要是在物体边框,而其内部的区域大概率是没有变化的。相当于给图像做了一次压缩,减少了无效信息,只输出动态信息,可以以一个低带宽的线路给出一个高质量的信息。”(3)降低算力和功耗
帧相机需要对每一帧图像进行处理,比如30帧的相机,在10秒内可以产生300张图像,如此庞大的数据量对芯片的算力要求也更高,产生的功耗也会更大。在自动驾驶领域,虽然帧相机也可以通过一种叫注意力机制的方法,把视觉信息集中在一些感兴趣的区域,但前提仍需要将所有的图像数据先进行一次预处理。事件相机在二维结构上显示出一定的稀疏性(比如一个目标物只在t0时刻动了,但之后一直保持着静止,那就只会在t0时刻显示一个事件,之后则没有数据产生),也就是说,它只会对变化的部分产生脉冲信号,可能10秒内只有几十KB数据量,它不需要处理过多的数据量。事件相机所需的算力可能只有传统CIS芯片的1%,甚至更低,对应的功耗也会较低。(4)高动态范围
通俗点说,高动态范围指的是相机在极端光强变化下也能保持图像的清晰度。帧相机的动态范围通常只能达到60dB,而事件相机的动态范围能达到120dB,甚至会更高。高动态范围可以帮助事件相机在光线极暗、曝光过度、光线突变等情况下,依然能够保持有效的工作,为自动驾驶增添了一份安全冗余。某传感器公司专家通过一个形象的例子,说:“比如一辆车从黑暗的隧道驶出时,普通相机会出现过度曝光,需要一段时间才能恢复,虽然也可以通过算法去克服这个问题,但是事件相机在这方面会表现得更好。” 1.3 工作原理
那事件相机是如何工作的呢?具体来说,当对应像素坐标点的光强变化量超过了预先设定的阈值时,事件相机就会以微秒级分辨率标记时间戳,并输出异步事件流。我们通过下图的小球实验可以更直观地发现:只要小球变化的时刻,就会产生事件流,而小球静止的时刻,就不会产生事件流。1.4 与传统帧相机的差异
(1)感光机制不同
帧相机是通过设定恒定速率的方式,从而获取场景的信息,并只记录下每一帧内各像素点上的光强信息,而不记录这一刻相对于上一个时刻所产生的光强变化。而事件相机记录的则是光强的差值变化,以及具体到某个像素坐标位置的变化,从而触发一个事件流的产生。需要注意的是,对于相对静止的物体,事件相机是没有信号返回的;而对于相对运动的物体,尤其是物体外边框,则会产生相应的光强变化。(2)读出机制不同
帧相机始终输出的是一帧一帧的图像,并且每一帧的图像呈现出非常稳定且均匀的特征。以一个30帧的相机来说,当车辆经过一个不变的场景时,相机在运作时依然会每秒拍摄30张重复的图像——其中29张属于浪费。反过来看,事件相机是由一个个事件组成,它无法像帧相机一样,输出一个图像视频,而是只记录某个像素点上发生的正向或者负向的光强变化,并输出光强变化量信号,所以事件相机的数据特征不是均匀稳定的。宇勘科技商务负责人金光旭解释道:“帧相机的读出电路是行列扫描的方式,是一种矩阵数据整体读出的形式,在像素坐标轴上记录像素点的RGB信息;而事件相机是通过AER的编码方式,仅将事件以时间戳和坐标的数据形式,按照事件产生的先后顺序异步传出。”(3)电路设计不同
事件相机与传统的帧相机相比,二者在电路设计上是完全不同的,最大的区别是在于图像传感器部分。在发展初期,由于事件流不容易理解和处理,部分事件相机厂商为了能够将事件相机更快地实现产品化,并应用在更多的场景,于是在事件相机的pixel结构设计上加了一个APS电路。针对APS的理解,某传感器公司专家解释道:“所谓的APS实际上就是某种程度上的CIS pixel,它会提供辅助参考的作用。”1.5 产品类型
当前,市场上主流的事件相机产品主要为三类:DVS、ATIS以及DAVIS,它们都采用了差分型视觉采样模型。此外,也有一些其它类型的事件相机,比如CeleX、Vidar,但从商业化的进度来看,上述三类事件相机的商业化发展较快,所以此处着重介绍这三类。 | | | |
| | 基于DVS的改良,只在输出事件流的同时,输出灰度信息 | |
| 由对数光感受器、差分电路、两个比较器(阈值比较器与内部握手电路)组成 | | |
| | | |
| | | |
DVS是最先发展起来的一款事件相机,它采用AER异步传输方式的差分型视觉采样模型,以异步时空脉冲信号表示场景光强变化,对有光强变化的部分做出响应,而对无光强变化的部分则不会做出响应。DVS将这些运动变化信息转化为空间稀疏、时间密集的事件流。电路结构:DVS像素电路由对数光感受器、差分电路、两个比较器(阈值比较器与内部握手电路)组成。其中,对数光感受器能感知光强变化并及时做出反应;差分电路可以将感光电路的输出信号进行放大;两个比较器主要是比较电压的变化实现ON/OFF事件脉冲的输出。挑战:纯事件数据的可视化程度较低,无法提供精细化的图像。(2)ATIS(基于异步时间的图像传感器)
ATIS在DVS的基础上进行改进了数据的可视化,可以只在电路产生事件信号的同时,触发光强测量电路,从而对事件提供一定的灰度信息。电路结构:ATIS像素结构分为两个部分(A和B),它包括两个感光器。其中,A部分包含完整的DVS像素结构,可以检测光强的变化并激发事件;B部分包含的感光器是用来检测光照强度的变化并进行曝光。优势:能提供灰度信息,功耗相对DAVIS较低。在启动后,由于直接发放了一次脉冲,可以直接获取到相机前方的所有灰度信息,然后根据运动区域内,将在产生的脉冲信号上不断更新相应灰度信息。挑战:不适用在环境亮度变化不频繁的场景。比如在高速运动场景下,由于光强测量结果是在脉冲信号产生后的一段时间内的平均光强,所以存在事件与灰度信息重构更新不匹配的情况。(3)DAVIS(动态和有源像素视觉传感器)
DAVIS也是在DVS基础上改良而来,可同时输出事件信息和灰度信息,与ATIS的区别在于只有一个感光器。电路结构:DAVIS是DVS相机和APS相结合而成,两者共用一个感光器。优势:DAVIS与ATIS一样,也可以提供灰度信息;同时,DAVIS由于共用一个感光器,像素面积相对ATIS更小。挑战:APS电路的采样速度远不如DVS电路,导致二者无法做到精准同步。再者,APS电路在高速场景下存在拖影现象。二、商业模式与竞争格局
2.1 产业链上下游概况
事件相机产业链的情况与传统帧相机几乎是相同的,主要包括上游是零部件供应商(镜头组零部件、胶合材料、图像传感器芯片等)、中游是模组供应商与系统集成商等、下游是主机厂。产业链中的不同之处主要是在图像传感器芯片、算法软件,比如更适合事件相机的芯片是类脑芯片、更适合的算法则是脉冲神经网络。2.2 商业模式
当前事件相机的商业模式还没有完全成熟,产业链的各个玩家都在探索适合自己商业化之路,初创型科技企业和大型Tier 1企业根据自身的实际情况,各有不同的商业模式。(1)初创型科技企业短期内以提供一整套解决方案为主,而中长期方向会专注于自身主业。从短期内来看,在整个事件相机产业尚未成熟前, 初创型科技企业无法找到合适的供应商,所以他们通常会覆盖整个产业链工序,包括芯片、算法、软件、模组。比如一家芯片公司,会联合相机模组或整机的合作伙伴,配合上自己的芯片,与最终客户共同开发在特定应用场景下的应用。一方面,客户还没有找到事件相机合适的落地场景前,他们不会投入多余的人力、物力、财力在算法的开发上;另一方面,事件相机算法的门槛较高,对应场景的算法开发也需要一定的经验和数据的积累。从中长期来看,这些事件相机的初创企业还是会向着软硬件解耦的模式去发展,即各家只做自己擅长的部分,并随着整个产业的工业化成熟度越来越高后,产业分工会越来越明确。(2)大型Tier 1企业,比如索尼,只会提供芯片,而把算法、软件、模组等外包给第三方。一方面,在市场体量不够大的情况下,提供解决方案会使相机的成本提高,不利于市场推广;另一方面,由于产业尚未实现标准化,第三方公司也没有能力提供除芯片外的全部工序。2.3 玩家盘点
本文简要地梳理了国内外的几家典型事件相机玩家及部分典型事件相机产品的主要参数信息。具体如下: | | | |
| | | |
| | | |
| | | |
| ALPIX(芯片)、ALPIX-Titlis传感器等 | | |
| | | |
| | | |
| | | 车内驾驶员监控(DMS)和驾驶辅助系统(ADAS) |
|
3.1 机会:自动驾驶中的落地场景
3.1.1 适合落地的场景
事件相机的优势在于响应速度快、高动态范围等,较适应于以下场景:第一,城区场景中的鬼探头。传统帧相机在面对横向的鬼探头场景时,无法快速做出反应,而事件相机可以更快的感知到危险信号。第二,高速场景下的避障。比如车辆在高速路上快速行驶时,遇到前方路面有一个轮胎,帧相机不能及时做出反应,而事件相机可以依靠它的低时延性优势,快速识别出前方的轮胎,并及时做出避障动作。第三,光线过亮或者过暗的场景。比如在深夜的环境下,帧相机由于周围极暗的光线而无法识别周围事物,而事件相机依然可以有效的识别周围事物。第四,光强突变较为明显的场景。比如车辆从隧道出来后,面对高曝光的场景,帧相机会受到高爆光的影响,从而产生失效的工况,而事件相机不会受到影响。事件相机不适合落地的场景,主要是在城区场景的某些工况下,比如车辆前方有无数行人在穿插过马路。再或者一些恶劣天气环境下,比如大雨、大雪、沙尘等。以上两种场景下,前方的目标物都存在数量多且无规律运动的特点,这会对事件相机产生很多无效的噪点。在与一些自动驾驶从业者交流时,不少人也问道:“那车辆在道路上行驶时,周围的物体看上去都在移动,是否说明事件相机不适合应用在自动驾驶?”对此,某事件相机方面的专家说:“这种相对的移动是有规律可循的,周围的物体都是以相对车辆的一个速度在后退,而这个速度就是车辆自身的行驶速度,可以在后台处理数据时,通过某些算法将车辆自身的速度作为一个参数,从而过滤掉一些原本静止的物体。”3.2 商业化中存在的问题
3.2.1 技术层面的挑战
(1)无法识别具体目标物
帧相机输出的是帧图像,并且已拥有了成熟的应用和标定数据库;而事件相机只能给出比较原始的数据信息,比如目标物的外部轮廓,并且也没有一个自己独立的数据库来匹配这些轮廓信息。若想要得到更深层次的信息,仍需要帧相机作为辅助,比如先从事件相机识别出前方雪糕筒的形状,而后在经过神经网络算法的训练后,发现该形状与之前的雪糕筒相似,从而判断出前方物体具体是什么。(2)缺少适合的芯片和算法
当前事件相机使用的是原来帧相机的一整套架构体系(比如所使用的芯片类型、算法模型等),但基于帧图像的架构并不能完全处理好事件流,而现有的大部分事件相机产品只是做了简单的架构平移。但两者的工作原理完全不同,若只是简单的架构平移,就如同将一台普通的轿车引擎装在一辆超跑上。目前事件相机用的主要是传统的CIS的图像传感器芯片,主要以处理帧图像的方式来处理事件流,两者的契合度较低。而类脑芯片一般指神经形态芯片,它是一种参考人脑神经元结构和人脑感知认知方式来设计的芯片,旨在突破“冯˙诺依曼瓶颈”,可实现类似人脑的超低功耗和并行信息处理能力,从这一点来看,非常匹配事件相机的性能。当前类脑技术仍然属于探索阶段,尚未大规模商业化。相对国内的进度来说,国外的类脑芯片玩家相对走得更快一步,比如英特尔、时识科技等,而目前国内的类脑芯片技术仍主要处在学术阶段。徐波说道:“事件相机的算法有一些特殊的神经网络,但是当前大家通用的还是基于frame的网络,数据的稀疏性会对传统神经网络算法产生影响,所以这也是目前事件数据比较难处理的地方。”而脉动神经网络具有事件驱动、异步运算、极低功耗等特点,并且脉冲信号的产生与事件相机基于时间戳的事件流输出方式非常契合。不过,目前脉冲神经网络仍然处于学术阶段,虽然也有部分企业在尝试该技术,但更多的是一种早期项目,并没有找到能够大规模应用的场景。3.2.2 工程层面的挑战
(1)阈值设定难度高
阈值是衡量事件输出的标准,当目标物的光强变化量(亮度由低到高或者由高到低)超过预设的阈值就会产生事件。其基本的原理是:通过调整阈值可以改变相机对噪点的敏感度,当阈值越大时,相机对噪点越不敏感,能捕捉到的事件也会越少;当阈值越小时,能捕捉到的事件也会越多。对于如何调整阈值大小,森云智能CEO徐波说道:“具体如何设置阈值需要看具体场景需求,比如车在城区或者高速等不同场景下,每个时刻的阈值设定都是不同的。而阈值的多少,取决于你想看到哪些东西,想看多一些,还是想看少一些。”一方面,在不同的场景环境下,阈值的初始状态设定也不同,比如白天的阈值会比较高,而晚上的阈值会比较低。另一方面,事件相机在使用过程中,它的阈值通过算法会不断动态调节,形成一个自适应地过程。而在自动驾驶领域,具体如何设定阈值也是一个难题:一方面,车在行驶过程中,与周围的事物始终保持着相对运动,随着物体表面光强亮度的变化就会一直有事件产生,此时阈值应该越大,从而减少噪点;另一方面,事件数据的特点是具有稀疏性(比如一个静止的物体,事件相机只会再t0时刻产生事件,之后就不会有新的事件产生),从冗余安全的角度来看,为了降低数据过少的风险,阈值应该越小。总的来说,阈值大小的设定是决定事件相机是否能在自动驾驶中用好的关键一步,这需要大量场景数据的积累、算法的优化、设备运行时动态地调整阈值。(2)数据处理效率低
帧相机处理数据的原理,是在等整张图像处理完了后才能做出决策;而事件相机的数据处理原理是出现一个事件就处理掉一个事件,然后快速地做出决策。但当前的商业应用中,市场上还没有针对事件数据处理的成熟方法,所以已有的事件相机产品都是采用帧相机的数据处理方式来处理事件数据。举例来说,若一个事件相机在60秒内,只有在第60秒才产生一个事件。此时,我们按照30帧的帧率去处理事件数据,就需要将60秒的数据切割成每30秒一组数据,然后在传统的神经网络算法模型下进行运算,可以发现,前一组30秒数据并没有事件产生,但在传统网络模型下前一组数据也必须要进行运算,这就违背了事件相机的处理数据原理,让其丧失了低时延的优势。(3) 与其它传感器融合的挑战
由于事件相机无法单独提供深层次的数据,比如测距、测速、表面具体颜色等,只能获取到物体的轮廓,所以单纯地使用一个事件相机是无法给到自动驾驶车辆足够的冗余安全,与其他传感器的融合才是更好的感知方案。
在与其它传感器融合时,需要把事件流与其它传感器的信号进行同步匹配。以事件相机与激光雷达的融合为例,事件相机与激光雷达都有帧的概念,激光雷达也是以某一恒定帧率发射点云。若想要把这两个传感器同步起来,就需要做到两个方面:一方面,时间戳的一一对应;另一方面,需要在做好标定的基础上,将事件相机的像素点云映射到激光雷达的点云上。在商业应用层面,事件相机主要存在应用场景较少和供应链体系不成熟的问题。
一方面,应用的场景仍较少。在现有相机体系越来越成熟的趋势下,当前事件相机能给自动驾驶能带来的增量价值过小,并且它只能通过与其它传感器融合使用才能发挥更大的价值,但作为新型传感器在进入市场前,事件相机需要经历漫长的场景功能开发,从而慢慢挖掘出一些它的潜在价值。另一方面,供应链体系不成熟。事件相机处在早期发展阶段,产品的标准化程度较低,在推广过程中不得不提供一整套解决方案,导致产品的成本较高。以事件相机的算法开发供应商为例,某自动驾驶公司传感器专家提到,现有的事件相机相关的算法开发商,主要是以demo为主,没有针对特定场景去做配套算法的开发。
总的来说,事件相机在理论上具备一定的优势,或许某一天能成为自动驾驶领域内一种全新的传感器选项,但现阶段技术成熟度与产业成熟度仍需要时间去慢慢打磨。
某事件相机厂商市场负责人说道:“不同应用领域内的潜在客户都意识到事件相机的独特优势,但是作为一项新技术,上下游的发展成熟仍需要一段时间,大家都在期待技术的更将成熟、价格的进一步下降,并且能够有丰富、成熟、可靠的配套算法。预计2023到2024年间,部分事件相机厂商会开始往一些量产型号去设计一些应用,但事件相机仍需要在产品的可靠性方面得到进一步的验证。”参考资料
【1】自动驾驶感知领域的革命:抛弃帧的事件相机将给高算力AI芯片沉重打击https://mp.weixin.qq.com/s/iEBPf4VZYUv-hYLnYdJcYghttps://mp.weixin.qq.com/s/sF4eHls3FMNbktXXCcV_zw【3】基于事件的视觉传感器及其应用综述,孔德磊,方正【4】神经形态视觉传感器的研究进展及应用综述,李家宁,田永鸿转载自九章智驾,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,我们将及时处理。
-- END --