第二部分,ToF成像原理、方法与特点
在我们狭义的ToF光学测距概念里,ToF的成像原理还是比较简单的:要测得ToF模组与场景中某个对象(或某个点)的距离,则由ToF模组的光源向该对象发出光(子)。光在发出后抵达该对象,并反射回到ToF模组的传感器。计量此间“光的飞行时间”,在光速已知的前提下,即可得到距离数据。这也是ToF,time of flight得名的由来。
实际上具体的ToF摄像头在实施方法上有不同的方案,例如基于脉冲的直接测量dToF方法,时间相关的单光子计数(TCSPC);不过对于普通的p-i-n光电二极管而言,要直接准确测定光的飞行时间是有相当难度的,所以在移动设备上更多的3D感知方案采用iToF间接测量方法:通过测量反射信号的相位与频率差得到深度/距离信息。dToF与iToF这两种方法分有各自的优缺点,这部分还将在后文详述。
2.1 光学测距:ToF与其他方案的对比
事实上,距离测量根据检测机制大致可以分成微波、超声波与光学技术三种。而光学感知技术的优势主要包括了长距离、较广的视野范围,以及最高的空间与深度分辨率,所以自动驾驶、AR/VR、机器人等领域对光学测距的应用更广泛。
前文已经提到过,本文探讨的ToF仅特指其在光学测距(及衍生的3D成像与感知)中的应用。那么ToF在光学测距中,处在什么样的位置呢?这里我们采用2001年 Optical Engineering(《光学工程》)一书中的分类方法(图2.1.1)。
图2.1.1,光学测距的分类,来源:Optical Engineering (2001)[6]
光学测距大方向可以分为主动与被动两种。
(1)被动方案中比较有代表性的就是立体视觉(Stereoscopy),即手机上如今十分多见的双摄、多摄:2011年前后的LG(如LG Optimus 3D)、HTC(如HTC One)就已经在应用这种技术,即通过两颗摄像头就能构造3D影像。这是一种比较类似于人眼视觉系统的方案,通过三角测量(triangulation)的方式,从不同视角的摄像头获取到同一场景的多张影像,以此获取场景的3D构造。
这种方案不需要主动光源,而且系统设计相对简单。距离信息是基于多张图片在同一物体上的视差,特征匹配就会显得很重要。这种方案在某些情况下存在一些显著缺陷,例如occlusion(某对象对一颗摄像头可见,但对另一颗可能不可见),以及缺乏纹理或者高光对象等。而且它对场景亮度等因素都有需求。
(2)上述被动方案列出的聚焦合成(depth-from-focus)是一种通过捕获场景中各种焦点的不同画面,为影像质量建模,并且执行距离计算的技术。光场相机是应用这种技术的典型。扫描这个场景中不同焦点设定的各个画面,每个焦点最锐利的影像即可确定,距离即可测得。这种技术只需要一颗摄像头,也就没有立体视觉系统的某些问题。不过由于是2D影像分析,所以对于缺少纹理的对象依然存在检测难度,而且因为操作与景深相关,深度分辨率与帧率就会有取舍。
上述两种被动测距方案由于都不需要主动光源,因此不需要考量人眼安全问题。相对来说,主动测距也就体现在通过主动光源照射场景,如激光、LED。
(3)图2.1.1分类中的干涉量度法(interferometry)能够提供最高的深度分辨率。这种方法是由反向散射激光束与参考光束发生干涉,产生干涉条纹进行测量。这种方法的问题在于测量距离十分受限,远小于其他方案。
图2.1.2,iPhone X的Face ID系统发射器发出的红外光点,来源:iFixit[7]
(4)在Optical Engineering一书列出主动测距方案中的“三角测量(triangulation)”特指结构光。iPhone X的Face ID脸部识别即是这种方案。结构光系统至少包含一个结构光发射器,和一枚红外摄像头。发射器会发射包含某一种光斑图案(light pattern)的许多光点,由摄像头捕获这些投射到场景中的光点图形,或者说是“编码的结构光”,根据不同光点的形变等状态来计算距离。
Face ID由发射器投射出超过3万个红外光点(图2.1.2),构建起脸部的深度图,在民用市场上这是一种精度更高的方案,或者说相较ToF明显更高,因此相比ToF方案,结构光也提供相对而言更好的生物特征识别安全性:更早华为、三星将ToF模组应用于前摄的方案,其安全性还是比苹果结构光更低的。
结构光系统的一个较大缺点在于,测量距离受到整个模组中,摄像头到发射器的距离(baseline)限制。如果要获得更远距离的3D感知,则需要更远的baseline——即摄像头和发射器要求离得更远,这对于讲究紧凑的消费产品而言成为一个重要制约,也成为制约结构光在手机上应用的问题。所以手机的后摄3D感知方案几乎不可能采用结构光技术。
结构光的另外一些缺点还可能包括上述立体视觉方案中的occlusion(因为立体视觉与结构光本质上都属于triangulation方案,只不过一个是主动,另一个是被动;不过市场上亦有已解决此类问题的方案技术)可致深度判断错误,而且结构光还需要集中能量的光源。
从更实际的层面来说,与结构光搭配的算法和算力要求会更多更复杂,这对后端芯片造成了更大的负担和成本的提升;而且结构光从技术上来说也更复杂、成本更高,比如从上述原理简述就不难理解,其发射端的技术要求明显更高;加上它在某些产品,典型如手机上的应用由于测量距离而受限,结构光的市场规模与发展潜力,在我们看来是不及ToF技术的。当然结构光更高的精度令其在某些应用场景仍有相当重要的位置,如对安全有更高要求的支付级别生物特征识别。[8][9]
有关结构光与ToF技术各自优劣的探讨,亦有不少研究与实验做出呈现,包括深度精度、敏感度等方面的比较[10]。这两种方案的不同,造成两者应用领域可能是不一样的,并不存在相互替代的关系。而且某些市场参与者同时对两者做了投入,例如ams既有针对ToF的方案,也有针对结构光的方案。
(5)ToF技术在民用市场的崛起,很大程度上是因为规避了以上多种方案的缺陷,并在技术复杂度和成本上相对折中,在测量距离、分辨率、系统体积、可适用性、成本等各方面都提供更大的可控弹性。比如说测量距离对手机之类设备而言十分适用(如iPad Pro 2020的LiDAR可实现5米范围内的3D感知与成像);在不少手机产品中的应用,也表明其体积对于紧凑型设备而言是完全适用的。
这种技术的原理实质已经在前文提过,ToF技术通过发射端来发射光子,在碰到场景中的对象时返回,并由ToF模组的接收端来获得返回信号,计算光子飞行时间或相位差数据,以此获得距离信息。后文还将花更多的笔墨来细数这种技术的具体方法和构成。
图2.1.3,英飞凌最早面向手机的商用ToF方案,来源:英飞凌[11]
这两年面向消费产品的ToF技术也在进化,如英飞凌在2017年率先推出面向手机产品可商用的ToF解决方案,其上采用英飞凌/pmd自家的REAL3™图像传感器,其整体形态如图2.1.3所示。整个模组包含了典型的发射端(主体为VCSEL激光器)、接收端(主体为ToF图像传感器),以及其他电路(如由于红外激光作为主动光源需考虑人眼安全,所需加入的电路)。
图2.1.4,提升集成度的ToF方案,来源:英飞凌
在MWC 2018大会上,英飞凌宣布推出当时移动设备中最小的深度感知摄像头(图2.1.4)。其变化主体除了更小的传感器尺寸以外,还在于显著提高的集成度:如人眼安全相关电路直接整合进成像系统,这也就极大缩减了PCB尺寸;加入SPI Flash存储器支持,用于数据缓存;以及裸片VCSEL激光器。英飞凌宣称,整套方案缩减了超过60%的系统成本,以及超过70%的PCB整体尺寸,模组高度也减少超过30%。这是ToF技术在消费市场中进步的一个缩影。
ToF技术的固有缺陷则在于前文提到的传感器空间分辨率明显更低,即便近两年其传感器分辨率已经在提升,例如iPad Pro 2020的LiDAR模块分辨率为3万像素[12],这在移动及消费产品的dToF方案中,已经是相当高的分辨率;英飞凌面向消费市场的一般REAL3™传感器(iToF方案)也达到了3.8万像素(传感器型号IRS2381C、IRS1645C),去年推出的IRS2771C则达到15万像素。未来的ToF市场预计还会朝着更高的分辨率进发,但至少就目前来看,测量精度量级仍然相较结构光方案落后。
测量精度与测量距离、传感器分辨率和视场角有关,而ToF传感器的分辨率目前仍然不高的原因,我们猜测一方面在于ToF传感器更要求单像素获取信号的能力(而不需要2D摄影成像那么高的画面解析力),更大的单像素尺寸也就显得比较必要(应用于iToF的图像传感器单像素尺寸普遍在10μm左右,而传统摄像头的CIS图像传感器单像素尺寸已经下探到0.7μm)。
另一方面,就dToF而言,传感器电路设计比较复杂,包括淬火电路、像素内TDC(time to digital converter)在内的各种电路需要占据较大的片上尺寸;而对应用iToF的方案来说,像素结构可能也涉及到对入射光与发射光调制同步的问题,更高的集光效率亦暂时难以缩减像素尺寸。
但在大方向上,ToF传感器厂商普遍也在尝试背照式(Backside Illuminated)、堆栈式(Stacked)CMOS这类技术,将原本位于光电二极管上方的布线层移至下方[13],以及将光电转换器、电子倍增器(electron multipier)这些部分垂直堆叠[14],以增大像素开口率,减小像素尺寸。这些都是进一步实现像素小型化的工艺方案。
图2.1.5,iPad Pro 2020的LiDAR发射端发出的红外光点,来源:iFixit
另外,从iFixit的拆解和分析来看(图2.1.5),iPad Pro 2020的LiDAR模块红外照明光点密度也远比其前置的结构光(Face ID)要低。这也很容易体现两种技术的直观差别,即在测量距离及精度上的此消彼长。
更为具体的ToF技术需要克服的缺陷,可能还包括了较短的积分时间(integration times)会造成信噪比问题,而更久的积分时间则可能让像素过饱和;低分辨率造成的抑噪、增采样等问题;还有包括场景中运动对象可能造成的运动伪像,以及多径干扰(multipath effects)等问题;由于场景中需测量对象表面材料本身的颜色、反射率、集合结构等差异,反射得到的红外光在振幅、相位方面都会有差别,可能导致深度计算错误——这类问题实际也都有缓解方法与改进技术。而且其中的很多问题也是光学测距技术共有的,并非ToF技术独有。
* 注:上述光学测距分类方法可能不够全面,例如以不同切分维度做划分,triangulation(三角测量)这种方法本身就可以分成主动与被动两种;而在被动测距方案中,在深度上做文章的也不仅限于depth from focus。
2.2 手机ToF测距的例子
如序言所述,智能手机应用ToF技术早于iPhone X,不过更早年的ToF技术主要应用于手机的光学测距,而不是如今十分火热的3D感知与成像。2014年的LG G3、黑莓Passport手机中就已经有了应用ToF技术的距离传感器的身影。
手机上的距离传感器,主要作用是在接打电话(或手机放在口袋中等使用场景)时,感知到耳朵贴近屏幕时即熄屏,起到省电和避免误操作的作用。早年的距离传感器实际仅是一个简单的光电二极管,用于感知光的亮度级变化。这种方案在某些情况下会失效。
iPhone 6s开始改用一种主动的距离感应方案:包括一个LED光源,以及光感应器。在接打电话时,脸部贴近手机前面板,LED发射光以后反射到光感应器,在光强度级超过某个预设的阈值后即关闭屏幕。这种方案的问题在于,需要找到一个阈值可适用于所有手机使用场景——这是相当有难度的。
iPhone 6s的这种距离感应方案已经有点儿ToF技术雏形的意思了,iPhone 7则正式在距离传感器上开始启用ToF光学测距方案。ToF光学测距相较早前方案的益处在于不需要依赖于光强度级,通过测量光子飞行时间的方式,几乎适用所有适用场景。
从TechInsights的拆解来看,如黑莓Passport及同时代的一众手机,都采用意法半导体的VL6180方案。这是一个三合一的光学模组,内部包含距离传感器、环境光传感器,以及VCSEL(垂直腔面发射激光器)光源[15]。距离传感器部分实则包括了完整的ToF模块发射端与接收端,而且接收端的传感器选择的是SPAD(单光子雪崩光电二极管)。
图2.2.1,iPhone 7的前置ToF模组部分,来源:TechInsights
iPhone 7所用的方案与意法半导体的二代ToF模组很相似,整个模组不再包含环境光传感器,SPAD阵列也发生了变化(图2.2.1)。TechInsights猜测,iPhone 7选择的ToF模组一方面用于距离感应,另一方面则用于前置摄像头的精准测距(对焦)。此后这类距离检测方案在手机设备中得以普及,从前置距离传感器到后置用于辅助摄像头做激光对焦的ToF模块。
发展到如今,ToF技术在手机上即不再单纯用于“单点”测距,逐渐向3D成像与感知方向发展,如LG G8 ThinQ前置ToF摄像头利用ToF技术实现隔空手势识别交互,以及华为P30 Pro开始在后置3D成像与感知模组中采用ToF技术,可实现更多样的应用,如通过对场景的深度感知来构建depth map,在传统摄像头拍照时,实现相比双目视觉更精准的背景虚化功能。iPad Pro 2020的后置LiDAR激光雷达即是ToF 3D感知应用更为近代的发展成果。
2.3 ToF技术的进一步分类
以图2.2.1针对ToF的进一步分类来看,手机中ToF模组应用于测距的方案属于dToF,即直接测量方法。苹果在宣传中也提到iPad Pro 2020所用的LiDAR应用的是dToF技术。从3D感知和成像的角度来看,在手机这类紧凑设备上直接应用dToF的设备并不多。针对ToF技术更具体方法的分类,这里做个简单的介绍。
这里我们采用英飞凌的分类方法(图2.3.1),这也是业界比较主流的一种分类。图2.2.1针对ToF的方案再分类,在维度上可能是略有不同的,如其中的iToF仅考察连续波方案。
图2.3.1,来源:英飞凌
(1)dToF(direct ToF)
前文简述的ToF技术原理,说的其实是dToF。这种方法在原理上也是最为简单的,最能诠释“飞行时间”含义的。即发射端发出一个激光脉冲,经过场景中某个对象反射,回到接收端,由接收端的光电探测器检测到。在这个过程里,会有抽象的“计时电路”用于计量全过程消耗的时间。那么在光速已知的前提下,场景中相应对象与ToF摄像头的距离即可得出。
这种方案虽然原理直接且简单,但技术层面对发射端的光源、接收端的光电探测器(即传感器),以及实现同步、时间检测相关电路都有着很高的要求。比如对发射端来说要产生这种短脉冲就有一定要求。而接收端的光电探测器也要求快速时间响应。
图2.3.2,dToF方法示意,来源:CMOS SPAD Sensors for 3D Time-of-Flight Imaging, LiDAR and Ultra-High Speed Cameras[8]
不少应用于手机距离传感器、摄像头辅助激光对焦的ToF模组就选择采用dToF方法,提供从发射端到接收端及整个模组方案的代表厂商即意法半导体。如前所述,在3D感知与成像方向上,iPad Pro 2020的LiDAR也采用这种方案,这在行业内仍是比较少见的。就现阶段的移动设备主流3D ToF应用来看,iToF是个更加切实可行的方案。
(2)iToF(indirect ToF)
在某些ToF技术实现的分类方法中,可能仅在切分上将ToF技术分为基于脉冲的ToF方法,和连续波ToF方法(或者说计算反射光相位差为主要方法的)[10]。而dToF与iToF的分类是将其切分得更细致。
在图2.3.1的分类方法里可见iToF可再分成pToF(基于脉冲的ToF)以及cwToF(连续波ToF)方法。在间接ToF中的pToF和dToF有些类似,不过pToF是实时测量多脉冲进行数据分析。值得一提的是,对于接收端的传感器而言,有相应的电子快门——也就意味着对于接收信号来说有一个“快门窗口”。应用pToF方法的典型市场参与者如ADI。
图2.3.3,iToF方法示意,来源:Time of Flight Cameras: Principles, Methods, and Applications[16]
而cwToF即连续波ToF方法,针对发射端的照明会应用一个周期性的调制信号,并针对反射光测量相位差,以此计算距离。当然上述提及的方法基本原理,在事实上未必会这么简单,比如cwToF可能需要做多次相位差采样并得到结果。选择cwToF方法的典型市场参与者如英飞凌、索尼。
pToF与cwToF也各有彼此的优缺点,比如pToF在系统设计上,尤其对环境光变化的适应性会更强,而且对场景运动模糊等问题的抵御也比较好;更远距离的功耗控制较好;脉冲时间与宽度并不要求一致,也就更容易实现更宽的动态范围与自动曝光。但pToF方法中,发射的光脉冲宽度和接收端传感器的快门要求一致,那么系统的时间控制要求就会更高;温度校准会更复杂,因为温度变化会影响到脉冲宽度;另外在系统设计上,可能要求外置的模拟前端用于深度数据的数字化和输出。
cwToF方法的优势在于对于一些精度要求没有那么高的应用而言,连续波系统实施起来会更简单(但在精度要求较高时,cwToF的信号调制实施难度也不小);为实现相位解缠,cwToF会应用多调制频率——这种方法对于减少多径错误会很有帮助;cwToF是全CMOS成像系统,具备更好的弹性、更快的读出速度,RoI(region-of-interest)输出这类功能也能实现。但cwToF方法也有一些缺点,cw传感器要求多调制频率下相关函数的四次采样,加上多帧处理,这样一来信号处理的复杂度会变高,可能会要求额外的应用处理器;对于更远的距离测量,或者场景内的环境光比较强,那么连续输出功率要求比较高,这对发热和稳定性会有影响。
由于cwToF方法在消费电子中的普及性,借由cwToF方法,这里恰好可简单介绍ToF技术在测量距离、精度等方面的限制因素。在cwToF的上述深度计算表达式中(图2.3.3),c代表光速,f代表调制频率,∆ϕ代表接收信号的相位差——这个相位延迟的获取,就要对接收信号对4个累加窗口做采样。
从上面的这个计算公式可知,如果要获得更长的测量距离,那么就需要更慢的调制频率。但如此一来就会限制距离精度(距离精度与距离相关)。距离精度与背景光强度、信号强度、最大不模糊距离(maximum unambiguous range,即上述等式中的c/2f)有关。对于一个给定了对象和背景光的场景而言,由于反射信号强度随着距离增加指数级下降,就会有指数级的精度降低。多调制频率方法(multiple modulation frequency)可部分缓解这个问题,但会增加系统复杂度。
除此之外,光源照射是持续进行的,那么为了满足人眼安全需求,就要求相对较低的峰值输出功率——这会导致较低的信号波幅,以及SBNR(signal-to-background noise ratio)。在结合这些因素之后就不难发现,cwToF(确切地说,这里的cwToF是amplitude modulated continuous wave ToF,相对于frequency modulated continuous wave)方法是一种相当适用于移动与消费领域的短距离检测方法;也在于其系统成本要低于dToF,发射端与接收端皆是如此。