论文标题:TransReID: Transformer-based Object Re-Identification 论文链接:https://arxiv.org/abs/2102.04378 作者单位:阿里巴巴 & 浙江大学

据作者称,这个第一个使用纯Transformer进行ReID研究的工作(其中提出ViT-BoT强劲的baseline),TransReID在行人和车辆重识别任务上均表现SOTA!性能优于HOReID等网络。

在本文中,我们探讨了基于视觉Transformer的ViT,将其用于,目标重识别(ReID)任务。经过几次改进,以ViT为骨干构建了一个强大的基线ViT-BoT,在几个ReID基准上,该结果与基于卷积神经网络(CNN-)的框架可比。此外,考虑到ReID数据的特殊性,设计了两个模块:(1)对于Transformer,将摄像机或视点之类的非可视信息编码为矢量嵌入表示形式是非常自然和简单的。插入这些嵌入中,ViT可以消除由各种相机或视点引起的偏差。(2)我们设计了与全局分支平行的拼图分支,以促进在两分支学习框架中训练模型。在Jigsaw分支中,设计了一个Jigsaw patch模块,以学习可靠的特征表示并通过对patch进行改组来帮助训练变压器。通过这些新颖的模块,我们提出了一个称为TransReID的纯tranformer框架,这是据我们所知第一项使用纯Transformer进行ReID研究的工作。 TransReID的实验结果非常有前途,可以在行人和车辆ReID基准上达到最先进的性能。

内容中包含的图片若涉及版权问题,请及时与我们联系删除