FaceID与3D传感技术

传感器技术 2022-03-23 07:00

TI MCU方案：电动汽车实时控制 【有奖直播】精密半导体参数测试解决方案

什么是Face ID?

苹果公司在iPhone X中首先使用了“TrueDepth摄像机系统”(也就是“齐刘海”部分)，通过使用里面的传感器和点阵投影仪，投射出3万多个点，就能形成一张完整的3D“脸谱”用来识别用户脸部。据悉， iPhone X采用定制的芯片来处理人工智能工作负载，这是一个双核的“ A11生物神经网络引擎”芯片，每秒运算次数最高可达6000亿次，该芯片赋能的最重要的事情就是使Face ID身份认证功能能够快速识别人脸。同时，经过不断被训练的神经网络建模识别人脸，当你的iPhone X识别你的脸部次数越多，它就会对你越熟悉。不管你是换发型、留胡子、戴帽子、戴眼镜，还是光线强弱不同，它都会认出你。

同为生物识别技术，TouchID的解锁错误率是五万分之一，而FaceID则是一百万分之一，

iPhoneX人脸识别功能主要靠刘海部位的原深感摄像头实现，主要包括距离感应器、泛光感应元件、点阵投影仪和红外镜头。虽然iPhone X实际进行人脸识别的过程非常复杂，不过可以简化成以下几个步骤：

1、检测物体靠近：当各位拿起手机时，首先工作的是距离感应器，它将会告诉iPhone X是否有物体进行靠近;

2、检测用户脸部：泛光感应元件采用垂直腔面发射激光器(VCSEL)，POPPUR只要大家知道它会发射低功率红外光就可以了。在距离感应器检测到物体后，泛光感应元件就会对前方物体进行扫描，由红外镜头接收信息，并传给A11芯片神经网络系统进行判断，识别为脸部后再进行下一步操作。

3、获取3D人脸信息：虽然检测到是人脸，但是泛光感应元件发出的只是简单红外光，并不能记录空间信息，这时候点阵投影器发射的高功率红外结构光就派上用场了。结构光一般指呈条纹状或者点阵状的特殊光线，这种光线在打到凹凸不平的物体表面时会造成图像扭曲，从而获得物体的空间深度信息。

4、结构光接收：用于人脸识别的光线对精度要求比较高，不仅点阵投影仪发射的点要足够多(三万多个)，同时还要防止环境光干扰，因此红外镜头上还搭载滤光片，除了特定频率的红外光都会被剔除掉(为了保证感应能力和避免太阳光的干扰，一般选择800~900nm波长附近的近红外光)。

5、收集完结构光等信息后，手机通过3D图像处理芯片可以生成具备空间信息的三维图像。这些信息将会经过特殊调制，以数据形式与保存在处理器的Secure Enclave的Face ID编码(注册Face ID时录入的信息，无法被提取到手机外或者被传到云端)进行配对，匹配度满足苹果设置的要求后手机就能实现解锁。

事实上，近几年来以来，业界对于脸部识别的应用“屡试不爽”，但一直因为安全问题被诟病。比如只需要通过一张电脑所有者的照片，就可以轻松进入设置了脸部识别登录方式的电脑;再比如流行科学作家丹·莫伦(Dan Moren)通过一个视频就击败了阿里巴巴的面部识别系统。

苹果的FaceID，采用的是结构光双摄方案，通过将3万多个光点的网络投射到人脸上，并随着用户转动头部以映射脸部3D形状，最终形成的是一个三维图像，这也是目前安全性最高的人脸识别方案。而其它技术更多还是二维人脸解锁的方案。

Face ID安全吗?

苹果iPhone X的面部识别功能中包含“注意力检测”功能，这个功能可以确认你是在清醒的状态下使用手机。因此当你睡觉时，有人试图解锁你手机的行为将会失败。

“注意力检测”原理为人眼视线检测，检测用户视线方向，判断用户的注视区域，系眼球追踪技术的一部分。这部分功能同样是由“齐刘海”硬件实现(苹果收购的眼动追踪企业SMI为技术提供方)，利用红外镜头和泛光感应元件，实现人眼瞳孔的特征定位，在通过AI芯片A11的深度学习估算人眼视线方向。

在操作应用上其中涉及的公开专利原理摘要为，一种方法包括接收计算机化系统的用户的身体至少一部分的三维(3D)映射序列,并从3D映射中提取用户头部的3D坐标。基于头部的3D坐标,识别由用户执行的注视方向以及在耦合到计算机化系统的显示器上，在注视方向上呈现的交互项目。从3D映射中提取指示;指示用户正在特定方向上移动身体的肢体,并且响应于该指示,将所识别的交互项目重新定位在显示器上。

这项于2016年12月份公开的专利，即是注意力检查的原理，将上图的PC机及摄像设备想象缩小到手机端，用户只有在眼睛注意力集中在一个圆圈中，同时它会要求用户将头部放在同一个圆圈中。这一步骤同时完成人脸图像扫描，以及注视点映射。

当今视线检测技术的精度可以达到1°以下，一些多年从事眼动分析的技术公司可以做到0.4°的高精度。按照1°的偏差精度来计算，当用户注视iPhone X手机屏幕圆圈时，视线偏差距离不超过5mm。因此，通过“注意力检测”技术，当人眼的关注视线落在手机屏幕上时，Face ID认为此时用户传达了交互的目的，即进行解锁。而在用户视线偏离手机屏幕时，“注意力检测”结果将帮助Face ID不要误解锁手机。

Face ID会失效吗?

Face ID为满足不同时段不同环境对摄像头的要求，如白天、黑夜、室内、室外。摄像头会使用红外光(泛光感应元件)照亮你的脸，使用红外镜头捕捉图像。以下是人脸识别的具体步骤：

1、首先，把IR图像从相机发送到iPhone X的神经引擎里，以构建用户的人脸3D模型

2、将用户的3D模型或“验证图像”在计算机算法中呈现，并将其与用户存储的模板或“设置图像”进行比较;

3、根据这两个图像之间的相似度得出对比数值，看验证图像和设置图像是否匹配;

4、如果对比数值高于某个确定数值，iPhone X会通过你的身份验证并解锁。

因此，Face ID是否会失效要看苹果对于阈值的设定，如果设定较高的阈值，相应失效问题就会小很多。

2D人脸识别技术与3D人脸识别技术

对于刷脸消费、刷脸解锁这些“黑科技”，人们其实一点都不陌生，但如果要深入其中，普通人也只能说出一个关键词：人脸识别。而人脸识别技术实际上可以区分为2D和3D两种。

1、2D人脸识别：2D人脸识别是目前最为常见的人脸识别技术之一，其工作原理是后期人脸识别系统对图片中的人脸进识别，通过设定数百或数千个点，并记录点与点之间的函数，该函数即为此人的面部信息。

2、3D人脸识别：3D人脸识别是采用3D结构光技术，通过3D结构光内的数万个光线点对人脸进行扫描后，从而提供更为精确的面部信息，而这类面部信息并不会受到口红、粉底等化妆品的影响。与2D人脸识别相比，3D人脸识别将提供更为精确的面部数据，最终让数据更加安全可靠。

“普通视觉传感设备让万物看到世界，而3D传感技术则让万物能像人一样‘看清’世界。”

3D传感技术原理

要谈3D传感技术，就必须先弄清楚光学测量分类以及其原理。

光学测量分为主动测距法和被动测距法。主动测距方法的基本思想是利用特定的、人为控制光源和声源对物体目标进行照射，根据物体表面的反射特性及光学、声学特性来获取目标的三维信息。其特点是具有较高的测距精度、抗干扰能力和实时性，具有代表性的主动测距方法有结构光法、飞行时间法、和三角测距法。

主动测距法

结构光法

根据投影光束形态的不同，结构光法又可分为光点式结构光法、光条式结构光法和光面式结构光法等。

目前应用中较广，且在深度测量中具有明显优势的方法是面结构光测量法。面结构光测量将各种模式的面结构投影到被测物体上，例如将分布较密集的均匀光栅投影到被测物体上面，由于被测物体表面凹凸不平，具有不同的深度，所以表面反射回来的光栅条纹会随着表面不同的深度发生畸变，这个过程可以看作是由物体表面的深度信息对光栅的条纹进行调制。所以被测物体的表面信息也就被调制在反射回来的光栅之中。通过被测物体反射回来的光栅与参考光栅之间的几何关系，分析得到每一个被测点之间的高度差和深度信息。

结构光的优点是计算简单，测量精度较高，对于平坦的、无明显纹理和形状变化的表面区域都可进行精密的测量。其缺点是对设备和外界光线要求高，造价昂贵。目前，结构光法主要应用在条件良好的室内。

飞行时间法(ToF)

飞行时间(Time of Flight，简称ToF)法，又叫做激光雷达(LiDAR)测距法。它将脉冲激光信号投射到物体表面，反射信号沿几乎相同路径反向传至接收器，利用发射和接收脉冲激光信号的时间差可实现被测量表面每个像素的距离测量。

ToF直接利用光传播特性，不需要进行灰度图像的获取与分析，因此距离的获取不受物体表面性质的影响，可快速准确地获取景物表面完整的三维信息。缺点则是需要较复杂的光电设备，价格偏贵。

三角测距法

三角测距法又称主动三角法，是基于光学三角原理，根据光源、物体和检测器三者之间的几何成像关系来确定空间物体各点的三维坐标。在实际测量过程中，它常用激光作为光源，用CCD相机作为检测器。这种方式主要用于工业勘探、工件表面粗糙度检测、轮胎检测、飞机检测等工业、航空、军事领域，在消费电子类产品还不曾涉及。

被动测距法

被动测距技术不需要人为地设置辐射源，只利用场景在自然光照下的二维图像来重建景物的三维信息，具有适应性强、实现手段灵活、造价低的优点。但是这种方法是用低维信号来计算高维信号的，所以其使用的算法复杂。被动测距按照使用的视觉传感器数量可分为单目视觉、双目立体视觉和多目视觉三大类。

单目视觉

单目视觉是指仅利用一台照相机拍摄一张相片来进行测量。因仅需要一台相机，所以该方法的优点是结构简单、相机标定容易，同时还避免了立体视觉的小视场问题和匹配困难问题。

单目视觉方法又可分聚焦法和离焦法两类。聚焦法是指首先使相机相对于被测点处于聚焦位置，然后根据透镜成像公式求得被测点相对于相机的距离。相机偏离聚焦位置会带来测量误差，因此寻求精确的聚焦位置是关键所在。而离焦法不要求相机相对于被测点处于聚焦位置，而是根据标定出的离焦模型计算被测点相对于相机的距离，这样就避免了由于寻求精确的聚焦位置而降低测量效率的问题，但离焦模型的准确标定是该方法的主要难点。

双目立体视觉

双目立体视觉的基本原理是从两个视点观察同一景物，以获取在不同视角下的感知图像，然后通过三角测量原理计算图像像素间的位置偏差(视差)来获取景物的三维信息。这一过程与人类视觉感知过程是类似的。

在双目立体视觉系统的硬件结构中，通常采用两个摄像机作为视觉信号的采集设备，通过双输入通道图像采集卡与计算机连接，把摄像机采集到的模拟信号经过采样、滤波、强化、模数转换，最终向计算机提供图像数据。一个完整的双目立体视觉系统通常可分为数字图像采集、相机标定、图像预处理与特征提取、图像校正、立体匹配、三维重建六大部分。

多目立体视觉

多目立体视觉系统是对双目视觉系统的一种拓展。所谓多目立体视觉系统，就是采用多个摄像机设置于多个视点，或者由一个摄像机从多个视点观测三维景物的视觉系统。

对多目系统所采集到的景物图像进行感知、识别和理解的技术被称为多目立体视觉系统技术。在双目立体视觉中，对于给定的物体距离，视差与基线长度成正比，基线越长，对距离的计算越精确。但是当基线过长时，需要在相对较大的视觉范围内进行搜索，从而增加计算量。利用多基线立体匹配是消除误匹配、提高视差测量准确性的有效方法之。基线数目的增加可以通过增加相机来实现。

光电3D影像技术

根据获取图像信息方法的不同，光电3D影像技术分为有源和无源两种技术，无源技术主要是接受物体的辐射或者环境的发射，有源技术是通过投射一束调制的或未调制的光到物体上通过检测物体反射的光来形成3D图像。

以前大多数技术研究集中在无源3D技术上，利用三角测量原理，通过两台相距一定距离的照相机，左边照相机产生的图像表示深度信息，右边照相机产生差异的二维图像。关键是产生深度信息的照相机需要分离出深度信息。无源3D影像技术需要拍摄的物体具有突出的轮廓特点，比如边缘、角、线等。其优点是不需要特殊的硬件条件，并成功使用在好几个方面。这种技术的缺点是需要两台或者更多的高质量的照相机、图像处理软件。图像质量、拍照速度、数据传输等都是这种机制能否被广泛应用的限制因素。

有源3D光电图像方法是投射一束有规律的空间分布的线状光到物体上从而产生一个网状格的深度。广泛使用的有源光方法是飞行时间(time off light)方法，最近几年，市场上出现的3D照相机都是基于飞行时间方法，这些3D照相机主要应用于工业控制，通过飞行时间方法检测相位来实现3D影像。一束几十兆赫兹被调制的近红外光照射到物体上，物体反射的光进入3D照相机，由于立体物体的远近距离不同，反射光的相位存在一个延迟，通过检测原始光束以及反射光束的相位延迟从而检测出物体的景深，从而实现3D图像。这种3D图像传感器的制作由ZMD公司完成，ZMD公司根据3D图像传感器需要高速的特点从噪声和速度进行工艺优化，响应速度可以到100MHz以上。

3D传感技术的应用

其实，除了用于手机的人脸识别，3D传感技术已经应用到了很多方面，在2018中国互联网大会上，有国人厂家推出的智慧家庭新生态解决方案，赋予电视3D人脸识别、精准内容推荐、手势交互等创新功能，颠覆智慧家庭客厅体验。通过3D人脸识别技术，电视可在不获取用户隐私的前提下，精准识别出机顶盒前的观众的用户画像信息，包括性别、年龄、情绪等等。同时，系统根据登录的用户角色信息，通过综合统计分析该用户角色的行为数据，可为用户提供“千人千面”的个性化EPG界面，精准推荐电视节目、视频点播、游戏应用等内容。

此外，3D传感技术可以赋能各行各业：首先是机器人厂商，尤其是服务性机器人的眼睛需要3D视觉技术，去感知周边的环境，例如目标距离、障碍物等信息;其次是安防厂商，在传统的安防摄像头里面再加装一个视觉传感器，就可以获得一个更加精准的三维立体信息;还有门禁门锁，3D的刷脸识别相比2D的刷脸识别，安全等级和精准性可以提升一级;最后，就手机行业的发展趋势来说，3D传感技术未来的应用空间很大，刷脸等生物识别都离不开3D传感技术，此外VR、AR、美颜也可以搭载3D传感技术去做一些交互性、娱乐性的体验。还有各种各样的智能硬件，凡是需要采集物体深度信息的相关功能，都会用到3D传感技术。

本公众号高薪签约长期专栏作者，欢迎具备优秀写作能力的科技从业或爱好者，联系传感器小编：YG18511751369（微信号）

期待下一篇10W+出自您的笔下！

免责声明：本文版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题，请第一时间告知，我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容！本文内容为原作者观点，并不代表本公众号赞同其观点和对其真实性负责。