英国萨里大学(University of Surrey)的研究人员开发了一种新颖的卷积神经网络(CNN),可用于重新辨识视频监控影片中的行人;此外,由于该CNN尺寸够小,使其得以部署于诸如安全监控摄影机等边缘装置。研究人员并声称,该人工智能(AI)技术甚至比人们更擅长操作摄像机。
新的神经网络称为全尺度网络(Omni-Scale Network;OSNet),用于实现“跨镜追踪”(ReID)网络的全尺度特征学习;它仅采用220万个参数,这在深度学习架构中算是非常少见的。相形之下,其他这一类针对行人再辨识的ReID网络,通常以经典的ResNet-50影像辨识算法为基础,它往往必须使用高达2,400万个参数。
这表示OSNet可以在边缘装置执行,而不必上传云端,因而够节省带宽,否则如果将大量视频影片都传送到数据中心的话,将会十分耗用带宽。
这项研究是在萨里大学的“视觉、语音和信号处理中心”(Centre for Vision, Speech and Signal Processing;CVSSP)进行的。ReID是采用多台摄影机监控系统的基本功能之一,能够追踪出现在不同非重迭(non-overlapping)摄像机画面中的行人。由于每一台摄像机的视角情况可能完全不同,使得追踪或匹配同一个人成为相当困难的问题。在视频监看画面中,行人与摄像机之间的通常存在一定的距离,使得这一问题更加复杂化,因为有太多不同的人所穿的衣服看起来很可能十分类似。
针对行人进行跨镜追踪(ReID)是一大挑战。在图1中的每一组照片,从左到右分别提供了原始影像、成功匹配的影像,以及匹配错误的影像进行比较。(来源:University of Surrey)
CVSSP计算机视觉与机器学习特聘教授Tao Xiang表示,“透过OSNet,我们着手开发了一种工具,它能克服在其他设置中所面临的行人再辨识等许多问题,而最终的结果远远超出了我们的期望。透过OSNet实现的ReID准确性明显超过了人类操作员。OSNet不仅显示在许多跨镜追踪问题上的性能优于同类方案,而其结果也显示它本身就可以作为一种独立的视觉辨识技术。”
研究人员们在其论文——《用于人员重新辨识的全尺度特征学习》(Omni-Scale Feature Learning for Person Re-Identification)中指出,尽管OSNet模型的尺寸较小,但在6个行人的ReID数据集上达到了最先进的性能,大幅超越其他大多数的大尺寸模型。
OSNet基于各种空间尺度的信息组合,并同时考虑了对应于较小的局部区域(如鞋子、眼镜),以及行人身体的全局范围(行人的体型大小和年龄、大概的服装组合,如白色T恤+灰色短裤等)。首先,该技术采用全身特征(如服装组合)来缩小搜寻范围,然后再检查局部特征,例如鞋子是否匹配等。
针对目前存在挑战的情况(例如图1(d)),则需要采用跨多个尺度的更复杂功能。研究人员以行人T恤上的标志为例解释,但影片的距离来看,它很可能会被误认或混淆其他图案。因此,透过标志(小尺度)加上白色T恤(中尺度)的组合,可望使追踪与匹配功能达到最佳效果。
OSNet采用由多个卷积串流组成的多尺度,实现了这种有效的特征组合,每个卷积串流都检测一定尺度特征。其所产生的多尺度特征图形则由新颖的统一聚合闸(可训练的微型网络,共享所有串流中的参数)产成的权重进行动态融合,以产全尺度特征,并可根据需要从不同的尺度中筛选出任何特定尺度的特征或混合特征。
轻量级OSNet网络结构,其中,R是指接收区(receptive field)的大小。(来源:University of Surrey)
编译:Susan Hong 责编:Yvonne Geng
(参考原文:Lightweight AI Tracks Suspects Between Cameras,by Sally Ward-Foxton)