以SVM和HOG特性实现实时人脸检测和识别-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

透过采用本文所描述的人脸检测和识别方法，可以得到准确的算法和高质量的人脸识别结果...

人脸识别(face recognition)是机器学习领域中最受欢迎的技术之一。最近，该技术的使用案例已经从政府安全系统的特定监视应用扩展到多个产业的更广泛应用，例如使用者的识别和认证、消费者体验、健康和广告。事实上，根据MarketsAndMarkets，到2022年，脸部识别(facial recognition)市场预计将成长到77.6亿美元，复合年成长率(CAGR)为13.9%。

本文讨论eInfochips工程师为存取管理应用成功开发的人脸识别算法实务。在这样的系统中有两个阶段：人脸检测；然后是人脸识别。一开始，脸部的检测是在影像上使用Haar级联分类器(Haar Cascade Classifier)，结合脸部主要的裁剪部份。

使用Haar级联分级器进行眼睛检测，形成几何脸部模型；而鼻子的检测则被用作眼睛检测的再确认机制。之后，从大量脸部影像中撷取“定向梯度直方图”(Histogram of Oriented Gradients；HOG)特征，作为识别机制的一部份。然后将这些HOG特征一并标记为某一个人脸/使用者，并且训练支持向量机(SVM)模型以预测馈送到系统中的脸部。

可能的用例和环境条件如下：

• 使用人脸识别进行存取管理。
• 近距离场景，摄影机与待识别人员脸部之间的距离为5到6英呎。
• 成功识别仅限于15个自由度(℃)以内的脸部俯仰翻转、左右翻转和平面旋转姿态。

就像任何其他形式的生物识别一样，人脸识别需要采集、识别、提取必要(特征)信息的脸部样本，并储存以供识别。整个人脸识别解决方案分为以下几个主要模块：

1. 脸部撷取
2. 脸部训练
3. 脸部识别

脸部检测是在人脸识别过程中执行任何操作的基本步骤。基于Haar特征的级联分类器是一种广泛使用的脸部检测机制。为了训练分类器来检测脸部，要形成两组包含众多影像的影像集：一组包含具有脸部的影像，另一组则包含没有脸部的影像。然后使用这些影像产生分类器模型。透过从正像(positive image)和负像(negative image)中撷取Haar特征来产生分类器。

Haar级联分类器如何运作？

Haar分类器主要根据Paul Viola和Michael Jones在其论文《使用增强级联的简单特征进行快速对象检测》(Rapid object detection using boosted cascade of simple features)中提出的对象检测架构。使用下图所示的每个特征训练单个分类器。然而，单个分类器本身无法实现高精度，因此多个这样的分类器形成级联。所形成的最终分类器是弱分类器的加权之和。使用此方法，分类器可提供95%以上的分类准确度。

图1：Haar特征（来源：opencv.org）

在图2的示例中，影像作为卷积核心以撷取特征，其中每个特征是透过从白色矩形下方像素总和中减去黑色矩形下方像素总和所取得的值。

图2：Haar特征示例（来源：opencv.org）

上图提供了两个特征示例：边缘和线条。边缘特征有效地映像脸部属性；即眼睛区域比脸部其它任何部份更暗。线条特征映像了鼻子属性；即脸部的垂直鼻线比两侧更亮。因为，这些特征中的任一个都无法准确对图案进行分类，所以将它们做成级联；因此，这就是基于Haar特征的级联分类器名称由来。

现在，让我们详细考虑脸部识别的三个主要模块，如下所述。

脸部撷取

人脸识别的第一步是收集脸部样本。基本上包括以下三个基本步骤：

1. 检测脸部。
2. 裁剪脸部的主要部份。
3. 储存脸部影像。

如同前一节中所讨论的，脸部检测主要使用基于Haar特征的级联分类器来实现。通常，脸部识别的准确性高度依赖于样本影像的质量和种类。针对相同脸部捕捉具有多个脸部表情的多个影像，可获得各种样本影像。

图3：捕捉脸部样本（来源：eInfochips）

一旦检测到脸部，就可以将其裁剪并储存为样本影像以供分析。广泛地使用矩形来框定影像中的区域，引入了裁剪头部影像的多余部份。因此，使用Haar级联分类器获得的矩形限定脸部特征中包含了无关紧要的数据，例如颈部、耳朵、头发等周围的区域。使用几何脸部模型可缓解这一情况，该几何脸部模型由各种脸部特征(包括眼睛、鼻子和嘴巴)之间的几何关系形成。

几何脸部模型如何运作？为了形成几何脸部模型，通常将一双眼睛视为影像内定位的第一特征。理想情况下，任何特征都可用于作为形成脸部模型的起点，但从眼睛的位置开始产生具有更高精度的脸部模型。在某些情况下，鼻子的位置用于确定脸部模型。然而，眼睛通常被认为是主要的起始特征，而鼻子则被认为是眼睛未定位或部份闭塞(occluded)情况下的次要起始特征。

使用眼睛的脸部模型：从两只眼睛中心的坐标开始，使用以下等式获得脸部的必要部份(特征)：

图4：使用眼睛的几何脸部模型（来源：eInfochips）

使用鼻子的脸部模型：使用鼻子中心的坐标，利用以下等式获得两只眼睛中心的坐标。此外，使用等式(eq.) 1、2和3 (如上所述)获得脸部必要部份的裁剪。

图5：使用鼻子的几何脸部模型（来源：eInfochips）

为了提高识别准确度，在脸部捕捉过程中丢弃尺寸小于256x256的脸部剪裁区域。此外，脸部区域相对于光源方向有显著偏差。为了减轻这种影响，在裁剪的脸部影像实施直方图等化。这降低了由于不均匀照明而在脸部形成的不对称性。

脸部训练

在此阶段，从与每个人相关联的影像中收集特征。之后，对来自所有储存影像的完整信息集(每人作为单个SVM标签予以隔离)进行训练以产生SVM模型。

什么是支持向量机(SVM)？支持向量机(SVM)是受监督的机器学习模型，用于对数据进行划分和分类。

图6：脸部训练方块图（来源：eInfochips）

SVM广泛用于诸如脸部检测、影像分类、手写识别等应用。可以将SVM模型视为使用超平面隔离多个类的点空间。

什么是定向梯度直方图(HOG)？HOG是通常用于对象检测的特征描述符号，在行人检测应用上也广为人知。HOG依赖于影像内对象的属性而拥有强度梯度或边缘方向的分布。在每个区块的影像内计算梯度。区块被认为是像素网格，其中梯度由区块内像素强度的变化幅度和方向构成。

图7：具HOG特征的脸部样本（来源：eInfochips）

在当前示例中，个人的所有脸部样本影像被馈送到特征描述符号撷取算法；即HOG。描述符号是影像的每个像素所产生的梯度向量。每个像素的梯度由大小和方向组成，使用以下公式计算：

在当前示例中，Gx和Gy分别是像素强度变化的水平和垂直分量。大小为128x144的窗口用于脸部影像，因为它与人脸的一般宽高比相匹配。描述符号是在具有8×8维度的区块上计算的。在8×8区块上每个像素的这些描述符号值被量化为9个区间(bin)，其中每个区间表示在该区间内梯度和值的方向角，其为具有相同角度的所有像素强度总和。此外，将直方图在16×16区块的大小上统一处理，这意味着将4个8×8区块统一以最小化光条件的影响。该机制减轻了由于光变化导致的精度降低。使用针对多个脸部的几个HOG向量来训练SVM模型。

脸部识别

视频序列中的脸部识别分为三个主要任务：脸部检测、脸部预测和脸部追踪。脸部捕捉程序执行的任务也在脸部识别期间执行。为了识别所获得的脸部，必须撷取脸部的HOG特征向量。然后在SVM模型中使用该向量来确定具有每个标签的输入向量之匹配分数。SVM返回具有最高分数的卷标，这表示对训练脸部资料内最接近匹配的置信度。

图8：脸部识别流程方块图（来源：eInfochips）

计算匹配分数的任务需要大量的运算。因此，一旦被检测和识别到，就需要追踪影像中的标记脸部，以减少未来讯框中的运算量，直到脸部最终从视频中消失。在所有可用的追踪器中，使用Camshift追踪算法可产生最佳的脸部识别结果。

范例应用

本文采用的实际范例应用是在视频管理系统中使用脸部识别存取管理和分析。在该计划中，艾睿(Arrow)旗下子公司eInfochips的一支团队设计并实施了一个带有脸部识别功能的视频管理系统，用于检测和识别多个IP摄影机馈送的人脸。该设置部署在制造业中，其中摄影机安装在多个建筑物中的不同位置，并且使用局域网络(LAN)互连。

该团队为该网络开发并安装了完整的视频管理解决方案，为安全部门赋予视频串流、透过视频分析提供警报以及访客身份验证。该视频管理系统中的脸部识别服务用于识别来自摄影机实时馈送的人脸，并产生系统事件，以触发员工和访客到场所的认证过程。此外，这些事件包括诸如识别时间、人名、人在地图上的位置等细节。然后使用视频管理系统内的用户接口客户端分析来自数据库的这些事件。

结论

在现代监控和安全应用方面，脸部识别扮演着非常重要的作用。透过应用本文中描述的方法，可以获得准确的算法和高质量的脸部识别结果。此外，藉助HOG和SVM模型，即使在包含复杂背景的场景中，也可以在识别人脸和分析脸部特征方面实现高性能。

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”

阅读全文，请先

人工智能传感/MEMS 技术文章

您可能感兴趣

谷歌向OpenAI竞争对手Anthropic追加10亿美元投资

谷歌宣布向人工智能初创公司Anthropic追加投资超过10亿美元，进一步巩固其在人工智能领域的竞争力。Anthropic的估值因谷歌的持续投资而水涨船高。该公司估值已达到约600亿美元......

软银、OpenAI、甲骨文斥巨资建AI项目“星际之门”，马斯克质疑“没钱”

特朗普提出的“星际之门”项目，旨在通过OpenAI、软银集团和甲骨文公司三方合作，推动美国人工智能技术的发展，并计划在未来四年内投入至少5000亿美元用于建设相关基础设施......

600.6亿元！AI产业也有了自己的国家级“大基金”

这一举措不仅体现了国家对人工智能领域的高度重视和支持力度，还预示着中国将在全球AI竞赛中迈出关键一步。

传台积电将在台湾再建两座CoWoS先进封装厂

台积电计划在 3 月前投资超过 2000 亿新台币（约合 61.2 亿美元），扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露，台积电之所以做出这一决定，是因为人工智能（AI）驱动的先进封装需求比预期更为强劲......

CoWoS遭英伟达砍单？台积电回应

尽管市场上有传言称英伟达大幅削减了对台积电CoWoS-S封装的需求，甚至有报告指出砍单幅度高达80%，但台积电和英伟达均对此进行了否认......

英伟达CEO黄仁勋现身深圳：只是来与员工共庆春节

老黄这次来的目的也很单纯：“我是来和我的同事们一起欢庆春节的。”

2025年中国PC显示器市场十大洞察

对于未来行业发展的增长趋势、行业特征和渠道特点等方面，IDC 总结并给出了2025年中国PC 显示器市场十大洞察……

中科院微电子所在SRAM存内计算领域取得新进展

该存内计算芯片采用全数字设计，能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效，团队提出了一种……

西门子获评IDC MarketScape制造执行系统领导厂商

西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商，该报告针对制造业的MES软件厂商进行了综合性评估。

Arm发布芯粒系统架构首个公开规范，加速芯片技术演进

Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范，进一步推动芯粒技术的标准化，并减少行业的碎片化。

字节调整员工福利明年起停发春节红包；苹果手表被诉表带含有潜在有害物质；谷歌2.5亿美元收购部分HTCXR业务|日报

互联网与科技企业每日重点资讯文 | 苏丁巨头动向字节跳动调整员工福利字节跳动发布内部邮件，对员工福利政策进行微调。包括：2026年将停止发放春节红包（今年发放）；2025年度不再发放端午、中秋节礼品；

如何将智驾安全性做到99.99999%

电影《金陵十三钗》剧照上周，一向低调的轻舟智航举办了一场媒体交流会，联合创始人、总裁侯聪和 CTO 李栋等轻舟智航核心成员亲临现场，讲述轻舟智航过去一年的成绩及未来展望。轻舟智航的 2024，成绩斐然

【新春充电·狂省25%】创芯大讲堂开年钜惠！

春节黄金学习季！EETOP创芯大讲堂年度最大让利！即日起至2月10日，全站课程直降25%！用一份课程的价格，带走价值130%的芯片行业硬核技能包！【为什么必须抓住这次机会？】直击行业核心：覆盖集成电

长城汽车发巨额年终奖！

点击上面↑“电动知家”关注，记得加☆“星标”！近期市场较弱，主要是春节前资金面偏紧张造成的，按照每年的惯例，节后资金回流，都会有一个不错的红包行情，现在正是提前布局的关键。如果你还不知道方向，强烈推荐

开局一条「狗」，装备全靠打

宇树机器狗今年的 CES 展上，机器人无疑是一大焦点。清洁机器人、工业机器人、医疗机器人、陪伴机器人等引人注目，各大科技公司纷纷展示了机器人在不同场景下的巨大应用潜力。然而，尽管过去几年在大语言模型和

每周观察|激光雷达市场产值2029年估达53.52亿美元；0121地震或加剧1Q25电视面板供给紧张；NANDFlash厂减产

高端自动驾驶与物流需求带动激光雷达市场，预估2029年产值达53.52亿美元根据TrendForce集邦咨询最新《2025红外线感测应用市场与品牌策略》报告，目前激光雷达（LiDAR）在车用市场主要用

超越丰田，比亚迪又一国拿下销冠！

点击上面↑“电动知家”关注，记得加☆“星标”！电动知家消息，近日，新加坡陆路交通管理局发布的授权经销商新车注册数据显示，2024 年，比亚迪销量由前一年的 1416 辆大增至 6191 辆，市占率 1

视频教程|VisualStudioCode小技巧：如何将仿真器连接到使用安全ID锁定的RL78设备

本视频演示，如何将仿真器连接到使用安全ID锁定的RL78设备。 00:00：介绍 00:25：调试 00:40：设定安全ID 相关资源： • Visual Studio Code - 如何在安装

立讯精密收购闻泰科技产品集成业务，智能手机ODM行业重组加速

要点原始设计制造商（ODM）/ 独立设计公司（IDH）产业格局受到地缘政治冲突的影响。闻泰科技已剥离受影响的业务，并专注于半导体业务。立讯精密收购了闻泰的ODM业务，改善了自身的业务布局。随着ODM

TI发布最新财报：营收连续第九个季度下滑

我是芯片超人花姐，入行20年，有40W+芯片行业粉丝。有很多不方便公开发公众号的，关于芯片买卖、关于资源链接等，我会分享在朋友圈。扫码加我本人微信👇TI（德州仪器）于1月23日（当地时间）公布了 20

文章评论

最新
热门

换一换

EE直播

更多>

以SVM和HOG特性实现实时人脸检测和识别

Haar级联分类器如何运作？

脸部撷取

脸部训练

脸部识别

范例应用

结论

杂志声明