ReID最新综述!武大等全面总结Transformer方法|IJCV2024

OpenCV学堂 2024-12-24 22:29

点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析,将现有工作分类为图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景,提出了Transformer基线UntransReID,设计动物Re-ID的标准化基准测试,为未来Re-ID研究提供新手册。
目标重识别(Object Re-identification,简称Re-ID)旨在跨不同时间和场景识别特定对象。

近年来,基于Transformer的Re-ID改变了该领域长期由卷积神经网络(CNN)主导的格局,不断刷新性能记录,取得重大突破。

与以往基于CNN与有限目标类型的Re-ID综述不同,来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于Transformer在Re-ID中日益增长的应用研究,深入分析Transformer的优势所在,总结了Transformer在四个广泛研究的Re-ID方向上的应用,同时将动物加入Re-ID目标类型,揭示Transformer架构在动物Re-ID应用的巨大潜力。

论文地址:http://arxiv.org/abs/2401.06960

项目地址:https://github.com/mangye16/ReID-Survey

Transformer架构方法打破CNN架构性能记录

研究背景

Transformer以优异性能满足各种Re-ID任务的需求,提供一种强大、灵活且统一的解决方案。

研究人员将现有工作分类为基于图像/视频的Re-ID、数据/标注受限的Re-ID、跨模态Re-ID及特殊Re-ID场景,详细阐述Transformer在应对这些领域中各种挑战时所展现的优势。

考虑到无监督Re-ID的流行趋势,研究人员提出了新的Transformer基线——UntransReID,在单模态/跨模态任务实现最先进性能。

一般的Re-ID流程

针对尚未被充分探索的动物Re-ID领域,研究人员还设计了标准化的基准测试,进行广泛的实验以探讨Transformer在这一任务中的适用性,促进未来研究。

最后,讨论了一些在大模型时代中重要但尚未深入研究的开放性问题。

Transformer在图片/视频Re-ID的应用

Transformer在backbone层依靠注意力机制,具有全局、局部和时空关系的通用建模能力,有助于在图像/视频Re-ID任务中轻松提取全局、细粒度和时空信息。

Transformer在图像Re-ID的应用

1. 架构优化:设计特殊的Transformer架构,如金字塔结构、层次聚合等,或改进注意力机制。

2. Re-ID特定设计:利用视觉Transformer具备注意力机制和图像块嵌入的特性,捕捉局部区分性信息。通过Transformer中的编码器-解码器结构实现某些关键信息的解耦。根据不同目标类型的结构先验和任务特性进行Transformer架构设计。

图像Re-ID方法设计的不同Transformer架构

Transformer在视频Re-ID的应用

1. 应用Transformer进行后处理:许多应用Transformer的视频Re-ID方法为混合架构,先利用CNN模型提取特征,再使用Transformer模型进一步处理。通过Transformer的自注意力机制,捕捉序列中的长期依赖关系和上下文信息。

2. 纯Transformer架构:为克服混合架构中CNN导致的长距离信息获取受限,一些研究尝试探索纯Transformer架构在视频Re-ID中的应用。

数据/标注受限的Re-ID

Transformer为无监督学习提供更多可能。Transformer能够对更强大、更通用的模型进行广泛自监督预训练,以应对数据或标注受限的Re-ID任务。标注受限场景通常采取无监督Re-ID,而数据受限则主要通过领域泛化Re-ID解决。

Transformer在无监督Re-ID的应用

1. 自监督预训练:一类针对无监督Re-ID中Transformer应用的研究关注自监督预训练。Transformer模型对大规模无标签数据具有强大可扩展性,其结构的灵活性提供了更多样化的自监督范式。

2. 无监督领域自适应:Transformer在无监督领域自适应(UDA)问题中受到的关注有限。对于行人Re-ID,Wang等人借助Transformer实现不同身体部位之间的细粒度领域对齐。对于车辆Re-ID,一项工作通过联合训练策略,令Transformer自适应地关注每个域中车辆的判别部分。

Transformer在跨模态Re-ID的应用

Transformer提供了统一的架构,有效处理不同模态的数据。多头注意力机制可在各种特征空间和全局语境中聚合特征。高度适应性的编码器-解码器结构可容纳不同类型的输入和输出。因此Transformer特别适合在跨模态Re-ID中建立模态间关联,促进多模态信息的融合。

可见光-红外Re-ID旨在匹配白天的可见光图像与夜间的红外图像。因红外图像缺乏颜色与光照条件,视觉Transformer可更好地捕捉模态不变特征并具备更强的鲁棒性。视觉Transformer的结构及其注意力机制可在patch级别轻松建立局部跨模态关联。现有可见光-红外Re-ID方法聚焦于学习模态共享特征,将特征分解为模态特定特征和共享模态特征,在特征层面进行模态对齐。

文本-图像Re-ID为跨模态检索任务,根据文本描述在图像库中识别目标。作为Transformer架构在多模态应用中的里程碑,对比语言-图像预训练(CLIP)等大型多模态预训练模型使该领域取得显著进展。近期,CLIP已成为下游文本-图像Re-ID任务中的有力工具。

素描-图像Re-ID与骨架Re-ID均属于跨模态匹配任务,前者基于艺术家或业余者绘制的素描,后者则基于姿态估计生成的骨架图。Transformer擅长提取全局特征,在素描-图像Re-ID中表现突出。对于骨架Re-ID,可利用Transformer对骨架点构成的图结构进行全关系建模。

Transformer在特殊Re-ID的应用

在实际应用需求的推动下,Re-ID领域出现一系列特殊应用场景。Transformer被初步应用于这些复杂挑战,体现了卓越的可扩展性和适应性。

遮挡Re-ID:遮挡Re-ID场景下,图片中的识别目标被部分遮挡,导致身份信息难以完整提取。近年来基于Transformer的方法在这一场景取得显著成效,其核心策略包括提取局部区域特征。

换衣Re-ID:在长期Re-ID场景中,行人可能会以未知方式更换衣物,以服装外观为主导的判别性特征表示将失效。Lee等人在换装Re-ID场景下对不同的特征提取主干网络进行评估,Transformer架构相较于CNN表现出显著性能优势。

以人为中心的任务:以人为中心的通用模型旨在将包括行人检测、姿态估计、属性识别和人体解析在内的多个人体相关任务整合到同一框架中,从而相互促进,提升如Re-ID这类下游任务的性能。

行人检索:行人检索是一种端到端方法,通过多任务学习同时解决行人检测与Re-ID这两个目标冲突的问题。将多尺度Transformer架构引入行人检索方案可实现查询层面的实例级匹配。

群体Re-ID:群体Re-ID利用群体中的上下文信息来匹配在同一个群体中的个体,面临群体成员变动与布局变化等挑战。传统方法在位置建模方面存在不足,利用Transformer的位置嵌入机制可更好地处理群体级别的布局特性。

无人机Re-ID与固定摄像头相比,无人机在高度与视角上快速变化,导致图像更为复杂。在鸟瞰图像中分析车辆与行人时,显著的边界框尺寸差异与物体方向不确定性是关键挑战。除了纯无人机视角Re-ID外,还有研究重点关注空中与地面视角的跨域匹配。

特殊Re-ID场景

新基线UntransReID

研究人员提出了一个单模态/跨模态的常规无监督Re-ID基线UntransReID。

无监督Re-ID基线UntransReID

单模态无监督Re-ID:研究人员在无监督训练过程中设计了一种面向patch级别的mask增强策略。在数据增强过程中采用一系列learnable tokens来mask部分图像patch,并在训练过程中建立原始特征与掩码特征之间的对应关系,将此作为监督信号来引导模型学习。

跨模态无监督Re-ID:针对可见光-红外跨模态行人Re-ID,研究人员设计了一种双流Transformer结构,包含两个面向特定模态的patch嵌入层以及一个模态共享的Transformer。为进一步提升模态的泛化能力,在可见光通道中引入随机通道增强作为额外的输入,实现联合训练。

实验结果分析:对于单模态无监督Re-ID,UntransReID取得了与当前最先进方法相当的性能。跨模态Re-ID现有先进方法大多基于CNN且需要复杂的跨模态关联设计,UntransReID在多个可见光-红外Re-ID数据集上凭借简洁的设计实现了最先进的性能。

表1 基于CNN/Transformer的有监督/无监督方法的实验结果

表2 可见光-红外跨模态基线在RegDB和SYSU-MM01上的实验结果

动物Re-ID

研究人员特别探讨了动物Re-ID领域研究现状,总结近年来的动物Re-ID数据集和基于深度学习的动物Re-ID方法,为动物Re-ID制定统一的实验标准,并评估在此背景下使用Transformer的可行性,为未来的研究奠定坚实基础。

近年来的动物Re-ID数据集

动物Re-ID方法

基于全局图像的方法:许多现有研究借鉴行人Re-ID的传统方法,将完整的动物图像输入深度神经网络以获取可靠的特征表示。

基于局部区域的方法:一些工作在数据采集与特征提取阶段关注动物的关键部位,例如牛的头部、大象耳朵、鲸鱼尾巴以及海豚的鳍等。

基于辅助信息的方法:Zhang等人以牦牛头部左右朝向的简化姿态为辅助监督信号,强化特征表示;Li等人借助姿态关键点估计将老虎图像划分为多个身体部位进行局部特征学习。

动物Re-ID的统一基准测试

研究人员使用多种先进的通用Re-ID方法进行了广泛动物Re-ID实验。实验评估了基于CNN架构的BoT方法和基于Transformer架构的TransReID、RotTrans方法。基于Transformer架构的方法在多数情形下表现更优,本实验证明了Transformer在动物Re-ID应用的可行性与巨大潜力。

最先进的Re-ID方法在多个动物数据集上的评估结果

未来展望

Re-ID与大语言模型的结合

将大语言模型(LLM)与Re-ID任务深度融合正成为热门研究方向。通过生成或理解视觉数据的文本描述,LLM可在细粒度语义提取、无标记数据的利用以及模型泛化能力提升等方面为Re-ID提供有力支持。

通用Re-ID大模型构建

满足多模态、多目标的实际应用场景是Re-ID未来的重要诉求。Transformer在多模态数据融合和大模型训练中表现出突出能力,可用于同时处理视觉、文本乃至更多元的信息,从而建立模态无关、任务统一的通用Re-ID模型。

面向高效部署的Transformer优化

视频监控、智能安防等场景要求实时性与轻量级部署,在保持Transformer鲁棒性的同时需要减少计算开销。有效迁移通用预训练模型的知识到特定Re-ID任务,应对大规模动态更新中的灾难性遗忘问题,这些也是未来亟待解决的课题。

参考资料:
http://arxiv.org/abs/2401.06960

OpenCV4系统化学习


深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 在强调可移植性(portable)的年代,人称「二合一笔电」的平板笔电便成为许多消费者趋之若鹜的3C产品。说到平板笔电,不论是其双向连接设计,面板与键盘底座可分离的独特功能,再加上兼具笔电模式、平板模式、翻转模式及帐篷模式等多种使用方式,让使用者在不同的使用情境下都能随意调整,轻巧灵活的便利性也为多数消费者提供了绝佳的使用体验。然而也正是这样的独特设计,潜藏着传统笔电供货商在产品设计上容易忽视的潜在风险。平板笔电Surface Pro 7+ 的各种使用模式。图片出处:Microsoft Comm
    百佳泰测试实验室 2024-12-19 17:40 278浏览
  •                                                窗        外       年底将近,空气变得格外寒冷,估计这会儿北方已经是千里
    广州铁金刚 2024-12-23 11:49 153浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 149浏览
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 285浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 100浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 174浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 264浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 111浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 189浏览
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 206浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 177浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 214浏览
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 206浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 123浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 195浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦