作者:Hao Luo, Pichao Wang, Yi Xu,等

简介:本文主要从数据和模型角度来研究如何减小预训练数据与ReID数据域差异对Transformer-based行人重识别任务的影响。基于ImageNet强监督预训练的 Transformer-based行人重识别(ReID)方法最近取得了很好的进展,逐渐在性能上超越了CNN-based的方法。然而,由于ImageNet 和 ReID 数据集之间的巨大域差距以及 Transformer 强大的数据拟合能力,Transformer-based方法通常需要更大的预训练数据集(例如 ImageNet-21K)来提升性能。为了应对这一挑战,这项工作旨在分别从数据和模型结构的角度缩小预训练和 ReID 数据集之间域差异带来的影响。作者首先在大规模的无标签行人图像数据集(LUPerson 数据集)对 Vision Transformer (ViT) 进行自监督学习(SSL)预训练,实验发现该预训练范式明显优于ImageNet 监督预训练。为了进一步缩小领域差异并加速预训练,作者提出了灾难性遗忘分数(CFS)来评估预训练数据和下游ReID数据之间的差距。基于CFS,通过从预训练数据集中采样接近下游ReID数据的相关数据并过率过滤不相关数据来构建一个预训练子集。针对模型结构,作者提出了名为IBN-based Convolution Stem(ICS)的 ReID 特定模块,该模块能够通过学习更加不变的外观特征来减弱域差异带来的影响。为了验证方法的有效性,作者进行了大量实验以在监督学习、无监督域适应 (UDA) 和无监督学习 (USL) 设置下微调预训练模型。作者在不损失性能的前提下将 LUPerson 数据集缩小到 50%。最后作者在 Market-1501 和 MSMT17数据集 上实现了最先进的性能。例如,针对监督/UDA/USL ReID ,作者的 ViT-S/16 在Market1501数据集上分别达到的指标为: 91.3%/89.9%/89.6%的mAP 准确度。本研究的代码和模型将发布到:https://github.com/michuanhaohao/TransReID-SSL。

 

论文下载:https://arxiv.org/pdf/2111.12084.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除