苹果自爆秘籍：从想法到实现 Face ID 是怎样炼成的-电子工程专辑

 事实上，苹果 iOS 10 就开始使用深度学习技术用于脸部识别，目前已向开发者开放视觉框架，支持相关应用程序开发。下文将着重讨论电脑视觉技术在隐私保护遇到的挑战，及基于深度学习的终端机人脸识别技术实现方案……

苹果在自家机器学习日报（machinelearning.apple.com）自爆内幕，发布论文《基于深度神经网络的设备端人脸识别》（An On-device Deep Neural Network for Face Detection），披露脸部识别技术演变。

2017 年 9 月 13 日（美国时间 12 日），苹果在乔布斯剧院发布智能手机 iPhone X。这款搭载 64 位架构 A11 神经处理引擎、采用脸部识别解锁方式（Face ID）的全屏幕手机，号称 iPhone 10 周年纪念之作，售价8388元起。

事实上，苹果 iOS 10 就开始使用深度学习技术用于脸部识别，目前已向开发者开放视觉框架，支持相关应用程序开发。下文将着重讨论电脑视觉技术在隐私保护遇到的挑战，及基于深度学习的终端机人脸识别技术实现方案。

一、终端机深度学习模型的挑战

苹果最早发布的脸部识别 API 是透过 CIDetector 达成，一种针对静态影响的特征资讯（包括人脸、几何图形、条码等）识别的影像处理单元。最早版本的 CIDetector 基于维奥拉─琼斯目标侦测框架（Viola-Jones），苹果将其以传统方式最佳化。

后来，随着深度学习出现、电脑视觉领域的应用，人脸识别的准确性得到大飞跃，启发了苹果。相比传统的电脑视觉方案，深度学习演算法能有更好的模型，也要求更多记忆、储存／磁盘和可计算资源（Computatioal resource）。

矛盾点来了：以目前终端机（智能手机）的硬件条件来看，基于深度学习的视觉模型似乎并不是可行方案，而大多数企业的解决方案是提供云界面（Cloud-Based API），先将图片传给能执行大型深度学习框架的服务器，然后用深度学习侦测脸部。而云服务往往需要强大的桌机系统级 GPU，需要大量存储器。
face-detection-dcn-e1511750511412
界面方案虽然可行，但违背了苹果的隐私保护理念，因此，苹果只提供照片和影片云服务，所有照片、影片上传之前需得到帐户许可；针对电脑视觉指令，上传云端被认为是不太合适的方法。

最终，苹果还是找到了在终端机，也就是 iPhone 上的深度学习方案，并完成高度脸部识别准确性（state-of-the-art accuracy）。这中间需要解决的挑战包括：将深度学习模型整合到操作系统，使用宝贵的 NAND 储存空间（一种非挥发性储存技术，即电源切断后仍能储存资料）；还要将其加载到 RAM（随机存取存储器），利用 GPU 和／或 CPU 达到合适的计算时间；此外，和云端深度学习模型不同的是，终端机深度学习还需要解决执行电脑视觉指令的同时，还有其他的背景程序。

总言之，终端机深度学习模型要求的是：针对大型的照片资料库，用极短的时间执行指令，并使用不多的功耗或说不发烫。

二、从维奥拉─琼斯到深度学习
face-detection-workflow-e1511750531253
2001 年，Paul Viola 和 Michael Jones 基于哈尔特征和方向可变滤波器，提出了基于简单特征的对象识别技术，此即维奥拉─琼斯目标侦测框架，这个方法在 OpenCV 中实现为 cvHaarDetectObjects()。基于维奥拉─琼斯框架，iOS 7 引入 CIDetecor，做到了人脸侦测、识别功能，但此时的人脸识别，准确性和可靠性都不成熟。

2014 年，苹果最开始着手基于深度学习的脸部识别，深度卷积神经网络（DCN）才刚能完成物体识别工作，当时的主流方案是 OverFeat（利用卷积网络特征撷取算子，以达到图片分类、定位和侦测），能有效快速扫描物体影像。

OverFeat 实现了神经网络的连线层与卷积层（相同空间维度的滤波器的有效卷积）之间的等价性，也就是做到多尺度汇入预测（裁一个 32×32、像素尺度 16 的区域，可汇出任意大小，比如 320×320 的影像，生成适当大小的汇出对映，比如 20×20）。此外，OverFeat 还提供基于更少网络步幅的更密集汇出对映。

基于 OverFeat，苹果搭建了初始架构，以实现：

二进位分类：识别汇入资料中是否有脸部资讯；
回归演算法：边线预测汇入的人脸资讯，达成人脸定位。

苹果尝试一些训练方式：建立一个固定大小的影像块大资料集，对应网络的最小有效汇入，使每个块产生来自网络的单个汇出；定义参数的正负类，训练网络来最佳化多工作目标，如识别是否有人脸，找出人脸的座标和缩放比例。高效的完全卷积可处理任意大小的影像并生成二维汇出图。

整体思路是这样的：在人脸侦测流程中，包含多尺度的影像金字塔、人脸侦测器以及后处理模组等三大部分。多尺度的金字塔处理各种大小的面孔；人脸侦测器贯穿金字塔的各个等级，并从每层收集候选侦测；后处理模组然后组合这些候选侦测结果跨度，以产生对应网络对影像的脸部最终预测的边线框清单。

上述策略基本构成终端机电脑视觉方案，但网络复杂性和规模仍然是效能的关键瓶颈，不仅要将网络限制在一个简单的拓朴架构中，且还要限制网络层数，每层信道数量和卷积滤波器的核心大小。

为此，苹果提出了“师生”培训方式，即利用已培训的大型复杂网络（“老师”）汇出，来培训第二个薄而深的网络（“学生”，一个简单的 3×3 卷积和层叠重复架构组成，它的架构经过设计，能最妥善利用苹果自家神经网络推理引擎）。

以上方案是适合终端机用于脸部侦测的深度神经网络算法，并透过几轮训练更新，实现了够精确的网络模型。

三、最佳化影像管道

深度学习提供一个很厉害的电脑视觉框架（Vision Framework），但它还需要高度最佳化的成像管道。

不管汇入影像是什么角度、有无缩放、什么色彩转换或影像源／格式，人脸侦测都应该执行良好。此外，功耗和存储器使用情况也是最佳化的关键，特别是流媒体和影像撷取。对此，苹果采用部分二次取样解码技术和自动平铺技术，即使在非典型的纵横比下，也能在大影像执行电脑视觉工作。

此外，苹果还提供了广泛的色彩空间 API，电脑视觉框架可直接处理色彩匹配，降低开发人员的相关应用开发门槛（不用承担色彩匹配工作）。

电脑视觉框架还透过有效处理和重复使用中间体来最佳化。透过将算法的界面抽象出来，找到要处理的影像或缓冲区的所有权位置，算法框架可建立和缓冲区中间影像，提供尽可能多的分辨率和色彩空间，以提高多台电脑视觉工作的效能。

四、最佳化终端机效能

如前所述，终端机人脸侦测 API 必须克服即时应用程序和背景系统程序的问题。用户要的是处理照片资料库的同时识别人脸，或在拍摄后立即分析照片，流畅执行人脸侦测，还不影响功耗，系统不卡顿。

对此，苹果的方案是最大限度地减少使用存储器和 GPU，即透过分析计算图来配置神经网络的中间层：将多个图层代号到同一缓冲区，既可以减少存储器使用，又不会影响效能或规格碎片，且可在 CPU 或 GPU 使用。

苹果电脑视觉的框架的侦测器执行 5 个网络（即对应 5 个比例的金字塔），共用相同的权重和参数，但其汇入、汇出和中间层具有不同形状。为了进一步减少使用空间，不妨在 5 个网络组成的联合图上执行基于活性的存储器最佳化算法。此外，多个网络重复使用相同的权重和参数缓冲区，也可减少存储器需求。

利用网络的完全卷积性，将所有影像都动态调整到汇入影像的分辨率，也能大大减少总作业数量。由于作业拓朴架构并没有因分配其余部分的重构和高效能而改变，所以动态整形不会引入与规格有关的性能开销。

为了确保深层神经网络在背景执行时的 UI 回应性和流畅性，苹果为网络每层分割 GPU 工作项，直到每个单独时间少于 1 毫秒。所有这些策略综合起来，确保用户可享受本地、低延迟、隐私保护的深度学习算法，而不会意识到手机每秒执行数百万浮点的神经网络。

EETC wechat barcode

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”。

业界新闻人工智能光电及显示智能手机处理器/DSP EDA/IP/IC设计传感/MEMS 存储技术

返回列表

上一篇： 别人家的年终奖，鸿海年终红利人均33万人民币！ 下一篇： FLEX LOGIX创始人获三项FPGA互连美国专利

汽车需求萎缩，Microchip裁员2000人美国半导体巨头微芯科技（Microchip Technology）宣布了一项重大重组计划，将裁减约2000人，约占员工总数的9%，以应对汽车芯片需求持续低迷的挑战......
马来西亚与Arm达成2.5亿美元协议以提升本地半导体设计能力马来西亚政府也希望与Arm的交易将使国内生产商扩大规模，创建十家本地芯片公司，年收入总额达约200亿美元，将助GDP增加一个百分点。
中国 AI 人才缺口达500 万，薪资水涨船高 2024 年，中国人工智能专业在校生约 4 万多人，而整个领域的人才缺口却高达 500 万……
美国大学报告：中国芯片研究论文占全球34%，远超其他国家或地区全球前十大高产机构中，9家为中国机构（如中国科学院、清华大学等）。其中，中国科学院以 2018-2023 年期间发布的 14,387 篇文章位居榜首。
国家八部门联合起草指导政策，鼓励全国使用开源RISC-V芯片这一新指导政策不仅反映了中国在芯片产业中减少对外依赖的战略意图，也体现了RISC-V架构在中国芯片产业中的重要地位和发展潜力。
美国《芯片法案》实施遭遇挑战，负责机构四成雇员被裁现任美国总统特朗普却不怎么认可，一直认为关税是更好的手段。这一观点使得曾轰动半导体产业界的政策立法正遭受继续实施的挑战。
赤池昌二先生升任TEL集团副总裁兼 TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。
2025年无线连接的七大趋势预计在2025年，以下七大关键趋势将塑造物联网的格局。
4月必逛电子展！六大热门新赛道，来NEP 领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！
ASML公布2025年度股东大会议程，并提本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

签约！两家企业将在FPC/CCS领域深度合作 △广告与正文无关近日，珠海富士智能股份有限公司（以下简称“富士智能”）CCS业务与本地FPCA领域企业珠海合一创诚电子科技有限公司（以下简称“合一创诚”）正式签署战略合作协议，双方将围绕柔性电路
深创投出手！这家高精度定位厂商完成数千万元A轮融资本文来源：智能通信定位圈最新消息显示，全球领先的厘米级定位导航企业苏州天硕导航科技有限公司（简称“天硕导航”）近期宣布获得数千万元级的A轮融资。本轮融资目的是扩展业务、产品开发和团队建设，深创投作为本
村田直播|小体积·大生态--GNSS技术如何重塑智能时代的位置服务边界本文来源：物联网展行业变革：“位置即服务”正催生万亿级市场裂变数据洞察：2025年全球GNSS市场规模预计达680亿美元，年复合增长率28%，其中智能穿戴、资产追踪、工业安全三大场景贡献超50%。增量
三星车规级电容在电动车高压DC-DC转换器中的作用 | 贞光科技代理品牌引言嘿，各位电动汽车的爱好者们！咱们今儿个就来聊聊电动汽车里那些“看不见，摸不着”，但又至关重要的零部件。要说电动汽车这玩意儿，那可真是科技含量满满，各种高精尖的技术都往里堆。但要让这些
全面供货－MG26并发多协议SoC提供优异连接和AI/ML性能 Silicon Labs（芯科科技）宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26 SoC
闪耀新能源时代！安富利荣获2025“北极星杯”储能影响力BMS/EMS供应商奖在储能行业蓬勃发展的浪潮中，安富利凭借卓越的技术实力与广泛的市场影响力，荣获2025“北极星杯”储能影响力BMS/EMS供应商奖。这一荣誉不仅是对安富利过往成就的高度认可，更是对其在储能领域持续创新与
再过几年，日本人或许只能购买中国电视机了先问大家一个问题：你有多久没看电视了？对老局来说，最近这几年除了春晚和国庆阅兵，其他情况下，基本已经不会看电视了。当然了，连着PS5打游戏那是另外一回事。不过，虽然我们不怎么看电视了，但电视的市场却并
SwitchBot推出可自行裁剪的智能窗帘点击蓝字关注我们SUBSCRIBE to USImage: SwitchBotSwitchBot价格实惠、可调节的智能窗帘终于问世了。SwitchBot窗帘（SwitchBot Roller Sha
本周五|UCIe1.1“验”值担当：IP和系统级验证挑战的妙解良方
研报|美国与印度电信商加速部署FWA，预估2025年全球市场规模将达720亿美元 Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新《5G时代下的突破机会：论全球电信商FWA布局》报告指出，随着美国电信商T-Mobile、Verizon转移营运重心至拓展建置成本

热门评论
最新评论

换一换

苹果自爆秘籍：从想法到实现 Face ID 是怎样炼成的

杂志声明