ReID最新综述!武大等全面总结Transformer方法|IJCV2024

OpenCV学堂 2024-12-24 22:29

点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析,将现有工作分类为图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景,提出了Transformer基线UntransReID,设计动物Re-ID的标准化基准测试,为未来Re-ID研究提供新手册。
目标重识别(Object Re-identification,简称Re-ID)旨在跨不同时间和场景识别特定对象。

近年来,基于Transformer的Re-ID改变了该领域长期由卷积神经网络(CNN)主导的格局,不断刷新性能记录,取得重大突破。

与以往基于CNN与有限目标类型的Re-ID综述不同,来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于Transformer在Re-ID中日益增长的应用研究,深入分析Transformer的优势所在,总结了Transformer在四个广泛研究的Re-ID方向上的应用,同时将动物加入Re-ID目标类型,揭示Transformer架构在动物Re-ID应用的巨大潜力。

论文地址:http://arxiv.org/abs/2401.06960

项目地址:https://github.com/mangye16/ReID-Survey

Transformer架构方法打破CNN架构性能记录

研究背景

Transformer以优异性能满足各种Re-ID任务的需求,提供一种强大、灵活且统一的解决方案。

研究人员将现有工作分类为基于图像/视频的Re-ID、数据/标注受限的Re-ID、跨模态Re-ID及特殊Re-ID场景,详细阐述Transformer在应对这些领域中各种挑战时所展现的优势。

考虑到无监督Re-ID的流行趋势,研究人员提出了新的Transformer基线——UntransReID,在单模态/跨模态任务实现最先进性能。

一般的Re-ID流程

针对尚未被充分探索的动物Re-ID领域,研究人员还设计了标准化的基准测试,进行广泛的实验以探讨Transformer在这一任务中的适用性,促进未来研究。

最后,讨论了一些在大模型时代中重要但尚未深入研究的开放性问题。

Transformer在图片/视频Re-ID的应用

Transformer在backbone层依靠注意力机制,具有全局、局部和时空关系的通用建模能力,有助于在图像/视频Re-ID任务中轻松提取全局、细粒度和时空信息。

Transformer在图像Re-ID的应用

1. 架构优化:设计特殊的Transformer架构,如金字塔结构、层次聚合等,或改进注意力机制。

2. Re-ID特定设计:利用视觉Transformer具备注意力机制和图像块嵌入的特性,捕捉局部区分性信息。通过Transformer中的编码器-解码器结构实现某些关键信息的解耦。根据不同目标类型的结构先验和任务特性进行Transformer架构设计。

图像Re-ID方法设计的不同Transformer架构

Transformer在视频Re-ID的应用

1. 应用Transformer进行后处理:许多应用Transformer的视频Re-ID方法为混合架构,先利用CNN模型提取特征,再使用Transformer模型进一步处理。通过Transformer的自注意力机制,捕捉序列中的长期依赖关系和上下文信息。

2. 纯Transformer架构:为克服混合架构中CNN导致的长距离信息获取受限,一些研究尝试探索纯Transformer架构在视频Re-ID中的应用。

数据/标注受限的Re-ID

Transformer为无监督学习提供更多可能。Transformer能够对更强大、更通用的模型进行广泛自监督预训练,以应对数据或标注受限的Re-ID任务。标注受限场景通常采取无监督Re-ID,而数据受限则主要通过领域泛化Re-ID解决。

Transformer在无监督Re-ID的应用

1. 自监督预训练:一类针对无监督Re-ID中Transformer应用的研究关注自监督预训练。Transformer模型对大规模无标签数据具有强大可扩展性,其结构的灵活性提供了更多样化的自监督范式。

2. 无监督领域自适应:Transformer在无监督领域自适应(UDA)问题中受到的关注有限。对于行人Re-ID,Wang等人借助Transformer实现不同身体部位之间的细粒度领域对齐。对于车辆Re-ID,一项工作通过联合训练策略,令Transformer自适应地关注每个域中车辆的判别部分。

Transformer在跨模态Re-ID的应用

Transformer提供了统一的架构,有效处理不同模态的数据。多头注意力机制可在各种特征空间和全局语境中聚合特征。高度适应性的编码器-解码器结构可容纳不同类型的输入和输出。因此Transformer特别适合在跨模态Re-ID中建立模态间关联,促进多模态信息的融合。

可见光-红外Re-ID旨在匹配白天的可见光图像与夜间的红外图像。因红外图像缺乏颜色与光照条件,视觉Transformer可更好地捕捉模态不变特征并具备更强的鲁棒性。视觉Transformer的结构及其注意力机制可在patch级别轻松建立局部跨模态关联。现有可见光-红外Re-ID方法聚焦于学习模态共享特征,将特征分解为模态特定特征和共享模态特征,在特征层面进行模态对齐。

文本-图像Re-ID为跨模态检索任务,根据文本描述在图像库中识别目标。作为Transformer架构在多模态应用中的里程碑,对比语言-图像预训练(CLIP)等大型多模态预训练模型使该领域取得显著进展。近期,CLIP已成为下游文本-图像Re-ID任务中的有力工具。

素描-图像Re-ID与骨架Re-ID均属于跨模态匹配任务,前者基于艺术家或业余者绘制的素描,后者则基于姿态估计生成的骨架图。Transformer擅长提取全局特征,在素描-图像Re-ID中表现突出。对于骨架Re-ID,可利用Transformer对骨架点构成的图结构进行全关系建模。

Transformer在特殊Re-ID的应用

在实际应用需求的推动下,Re-ID领域出现一系列特殊应用场景。Transformer被初步应用于这些复杂挑战,体现了卓越的可扩展性和适应性。

遮挡Re-ID:遮挡Re-ID场景下,图片中的识别目标被部分遮挡,导致身份信息难以完整提取。近年来基于Transformer的方法在这一场景取得显著成效,其核心策略包括提取局部区域特征。

换衣Re-ID:在长期Re-ID场景中,行人可能会以未知方式更换衣物,以服装外观为主导的判别性特征表示将失效。Lee等人在换装Re-ID场景下对不同的特征提取主干网络进行评估,Transformer架构相较于CNN表现出显著性能优势。

以人为中心的任务:以人为中心的通用模型旨在将包括行人检测、姿态估计、属性识别和人体解析在内的多个人体相关任务整合到同一框架中,从而相互促进,提升如Re-ID这类下游任务的性能。

行人检索:行人检索是一种端到端方法,通过多任务学习同时解决行人检测与Re-ID这两个目标冲突的问题。将多尺度Transformer架构引入行人检索方案可实现查询层面的实例级匹配。

群体Re-ID:群体Re-ID利用群体中的上下文信息来匹配在同一个群体中的个体,面临群体成员变动与布局变化等挑战。传统方法在位置建模方面存在不足,利用Transformer的位置嵌入机制可更好地处理群体级别的布局特性。

无人机Re-ID与固定摄像头相比,无人机在高度与视角上快速变化,导致图像更为复杂。在鸟瞰图像中分析车辆与行人时,显著的边界框尺寸差异与物体方向不确定性是关键挑战。除了纯无人机视角Re-ID外,还有研究重点关注空中与地面视角的跨域匹配。

特殊Re-ID场景

新基线UntransReID

研究人员提出了一个单模态/跨模态的常规无监督Re-ID基线UntransReID。

无监督Re-ID基线UntransReID

单模态无监督Re-ID:研究人员在无监督训练过程中设计了一种面向patch级别的mask增强策略。在数据增强过程中采用一系列learnable tokens来mask部分图像patch,并在训练过程中建立原始特征与掩码特征之间的对应关系,将此作为监督信号来引导模型学习。

跨模态无监督Re-ID:针对可见光-红外跨模态行人Re-ID,研究人员设计了一种双流Transformer结构,包含两个面向特定模态的patch嵌入层以及一个模态共享的Transformer。为进一步提升模态的泛化能力,在可见光通道中引入随机通道增强作为额外的输入,实现联合训练。

实验结果分析:对于单模态无监督Re-ID,UntransReID取得了与当前最先进方法相当的性能。跨模态Re-ID现有先进方法大多基于CNN且需要复杂的跨模态关联设计,UntransReID在多个可见光-红外Re-ID数据集上凭借简洁的设计实现了最先进的性能。

表1 基于CNN/Transformer的有监督/无监督方法的实验结果

表2 可见光-红外跨模态基线在RegDB和SYSU-MM01上的实验结果

动物Re-ID

研究人员特别探讨了动物Re-ID领域研究现状,总结近年来的动物Re-ID数据集和基于深度学习的动物Re-ID方法,为动物Re-ID制定统一的实验标准,并评估在此背景下使用Transformer的可行性,为未来的研究奠定坚实基础。

近年来的动物Re-ID数据集

动物Re-ID方法

基于全局图像的方法:许多现有研究借鉴行人Re-ID的传统方法,将完整的动物图像输入深度神经网络以获取可靠的特征表示。

基于局部区域的方法:一些工作在数据采集与特征提取阶段关注动物的关键部位,例如牛的头部、大象耳朵、鲸鱼尾巴以及海豚的鳍等。

基于辅助信息的方法:Zhang等人以牦牛头部左右朝向的简化姿态为辅助监督信号,强化特征表示;Li等人借助姿态关键点估计将老虎图像划分为多个身体部位进行局部特征学习。

动物Re-ID的统一基准测试

研究人员使用多种先进的通用Re-ID方法进行了广泛动物Re-ID实验。实验评估了基于CNN架构的BoT方法和基于Transformer架构的TransReID、RotTrans方法。基于Transformer架构的方法在多数情形下表现更优,本实验证明了Transformer在动物Re-ID应用的可行性与巨大潜力。

最先进的Re-ID方法在多个动物数据集上的评估结果

未来展望

Re-ID与大语言模型的结合

将大语言模型(LLM)与Re-ID任务深度融合正成为热门研究方向。通过生成或理解视觉数据的文本描述,LLM可在细粒度语义提取、无标记数据的利用以及模型泛化能力提升等方面为Re-ID提供有力支持。

通用Re-ID大模型构建

满足多模态、多目标的实际应用场景是Re-ID未来的重要诉求。Transformer在多模态数据融合和大模型训练中表现出突出能力,可用于同时处理视觉、文本乃至更多元的信息,从而建立模态无关、任务统一的通用Re-ID模型。

面向高效部署的Transformer优化

视频监控、智能安防等场景要求实时性与轻量级部署,在保持Transformer鲁棒性的同时需要减少计算开销。有效迁移通用预训练模型的知识到特定Re-ID任务,应对大规模动态更新中的灾难性遗忘问题,这些也是未来亟待解决的课题。

参考资料:
http://arxiv.org/abs/2401.06960

OpenCV4系统化学习


深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 在当下竞争激烈的 AI 赛道,企业高层的变动往往牵一发而动全身,零一万物近来就深陷这样的动荡漩涡。近日,零一万物联合创始人、技术副总裁戴宗宏离职创业的消息不胫而走。这位在大模型基础设施领域造诣颇深的专家,此前在华为云、阿里达摩院积累了深厚经验,在零一万物时更是带领团队短期内完成了千卡 GPU 集群等关键设施搭建,其离去无疑是重大损失。而这并非个例,自 2024 年下半年以来,李先刚、黄文灏、潘欣、曹大鹏等一众联创和早期核心成员纷纷出走。
    用户1742991715177 2025-05-13 21:24 143浏览
  • 感谢面包板论坛组织的本次测评活动,本次测评的对象是STM32WL Nucleo-64板 (NUCLEO-WL55JC) ,该测试板专为LoRa™应用原型构建,基于STM32WL系列sub-GHz无线微控制器。其性能、功耗及特性组合经过精心挑选,支持通过Arduino® Uno V3连接,并利用ST morpho接头扩展STM32WL Nucleo功能,便于访问多种专用屏蔽。STM32WL Nucleo-64板集成STLINK-V3E调试器与编程器,无需额外探测器。该板配备全面的STM
    无言的朝圣 2025-05-13 09:47 199浏览
  •   电磁数据展示系统平台解析   北京华盛恒辉电磁数据展示系统平台是实现电磁数据高效展示、分析与管理的综合性软件体系,以下从核心功能、技术特性、应用场景及发展趋势展开解读:   应用案例   目前,已有多个电磁数据展示系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据展示系统。这些成功案例为电磁数据展示系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与预处理   智能分析处理   集成频谱分析、时频变换等信号处理算法,自动提取时域频域特征;
    华盛恒辉l58ll334744 2025-05-13 10:20 381浏览
  •   舰艇电磁兼容分析与整改系统平台解析   北京华盛恒辉舰艇电磁兼容分析与整改系统平台是保障海军装备作战效能的关键技术,旨在确保舰艇电子设备在复杂电磁环境中协同运行。本文从架构、技术、流程、价值及趋势五个维度展开解析。   应用案例   目前,已有多个舰艇电磁兼容分析与整改系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润舰艇电磁兼容分析与整改系统。这些成功案例为舰艇电磁兼容分析与整改系统的推广和应用提供了有力支持。   一、系统架构:模块化智能体系   电磁环境建模:基
    华盛恒辉l58ll334744 2025-05-14 11:22 87浏览
  • 在全球能源结构转型加速推进与政策驱动的双重作用下,油气输送、智慧水务及化学化工等流体计量场景正面临效率革命与智能化升级的迫切需求。传统机械式流量计虽在工业初期有效支撑了基础计量需求,但其机械磨损、精度衰减与运维困难等固有缺陷已难以适应现代工业对精准化、智能化与可持续发展的多维诉求。在此背景下,超声波流量计则凭借着高精度探测、可实时监测、无侵入式安装、无阻流部件、易于维护与绿色环保等优势实现了突破性发展,成为当代高精度流体计量体系中不可或缺的重要一环。该技术不仅是撬动能源利用效率提升、支撑智慧管网
    华普微HOPERF 2025-05-14 11:49 49浏览
  • 一、蓝牙射频电路设计的核心价值在智能穿戴、智能家居等物联网设备中,射频性能直接决定通信质量与用户体验。WT2605C等蓝牙语音芯片的射频电路设计,需在紧凑的PCB空间内实现低损耗信号传输与强抗干扰能力。射频走线每0.1dB的损耗优化可使通信距离提升3-5米,而阻抗失配可能导致30%以上的能效损失。二、射频走线设计规范1. 阻抗控制黄金法则50Ω标准阻抗实现:采用4层板时,顶层走线宽度0.3mm(FR4材质,介电常数4.3)双面板需通过SI9000软件计算,典型线宽1.2mm(1.6mm板厚)阻抗
    广州唯创电子 2025-05-13 09:00 30浏览
  • 文/Leon编辑/cc孙聪颖‍2025年1月至今,AI领域最出圈的除了DeepSeek,就是号称首个“通用AI Agent”(智能体)的Manus了,其邀请码一度被炒到8万元。很快,通用Agent就成为互联网大厂、AI独角兽们的新方向,迅速地“卷”了起来。国外市场,Open AI、Claude、微软等迅速推出Agent产品或构建平台,国内企业也在4月迅速跟进。4月,字节跳动、阿里巴巴、百度纷纷入局通用Agent市场,主打复杂的多任务、工作流功能,并对个人用户免费。腾讯则迅速更新腾讯元器的API接
    华尔街科技眼 2025-05-12 22:29 165浏览
  •   军事仿真推演系统平台核心解析   北京华盛恒辉军事仿真推演系统平台以计算机仿真技术为基石,在功能、架构、应用及效能上展现显著优势,成为提升军事作战与决策能力的核心工具。   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、全流程功能体系   精准推演控制:覆盖推演启动至结束全流程。   智能想定管理:集成作战信息配置、兵力部署功能。   数据模型整合
    华盛恒辉l58ll334744 2025-05-14 17:11 79浏览
  •   电磁数据管理系统深度解析   北京华盛恒辉电磁数据管理系统作为专业的数据处理平台,旨在提升电磁数据的处理效率、安全性与可靠性。以下从功能架构、核心特性、应用场景及技术实现展开分析:   应用案例   目前,已有多个电磁数据管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据管理系统。这些成功案例为电磁数据管理系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与接入:实时接收天线、频谱仪等设备数据,兼容多协议接口,确保数据采集的全面性与实时性
    华盛恒辉l58ll334744 2025-05-13 10:59 290浏览
  •   军事领域仿真推演系统的战略价值与发展前瞻   北京华盛恒辉仿真推演系统通过技术创新与应用拓展,已成为作战效能提升的核心支撑。以下从战略应用与未来趋势展开解析:   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、核心战略应用   1. 作战理论创新引擎   依托低成本仿真平台,军事人员可高效验证新型作战概念。   2. 装备全周期优化   覆盖武器
    华盛恒辉l58ll334744 2025-05-14 16:41 92浏览
  • 在当下的商业版图中,胖东来宛如一颗璀璨的明星,散发着独特的光芒。它以卓越的服务、优质的商品以及独特的企业文化,赢得了消费者的广泛赞誉和业界的高度关注。然而,近期胖东来与自媒体博主之间的一场激烈对战,却如同一面镜子,映照出了这家企业在光环背后的真实与挣扎,也引发了我们对于商业本质、企业发展以及舆论生态的深入思考。​冲突爆发:舆论场中的硝烟弥漫​2025年4月,抖音玉石博主“柴怼怼”(粉丝约28万)突然发难,发布多条视频直指河南零售巨头胖东来。他言辞犀利,指控胖东来在玉石销售方面存在暴利行为,声称其
    疯人评 2025-05-14 13:49 72浏览
  • 一、量子自旋态光学操控1、‌拓扑量子态探测‌磁光克尔效应通过检测拓扑磁结构(如磁斯格明子)的磁光响应,实现对量子材料中非平庸拓扑自旋序的非侵入式表征。例如,二维量子磁体中的“拓扑克尔效应”可通过偏振光旋转角变化揭示斯格明子阵列的动态演化,为拓扑量子比特的稳定性评估提供关键手段。2、‌量子态调控界面‌非厄米磁光耦合系统(如法布里-珀罗腔)通过耗散调控增强克尔灵敏度,可用于奇异点附近的量子自旋态高精度操控,为超导量子比特与光子系统的耦合提供新思路。二、光子量子计算架构优化1、‌光子内存计算器件‌基于
    锦正茂科技 2025-05-13 09:57 51浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦