- 简介我们知道,相比于基于图像的UDA技术,视频领域的无监督域自适应(UDA)是一个具有挑战性的任务,且尚未得到很好的探索。虽然视觉变换器(ViT)在许多计算机视觉任务中实现了最先进的性能,但它们在视频领域适应方面的应用仍然很少。我们的关键想法是将变换器层用作特征编码器,并将空间和时间可转移关系并入注意力机制中。然后,我们开发了一种可转移引导注意力(TransferAttn)框架,以利用变换器从不同骨干中适应跨域知识的能力。为了提高ViT的可转移性,我们引入了一种新颖有效的模块,称为域可转移引导注意力块(DTAB)。DTAB通过将自我注意机制转换为可转移性注意机制,迫使ViT专注于视频帧之间的时空可转移关系。在UCF-HMDB、Kinetics-Gameplay和Kinetics-NEC Drone数据集上进行了大量实验,使用ResNet101、I3D和STAM等不同的骨干,验证了TransferAttn与最先进方法相比的有效性。此外,我们还证明,将DTAB应用于其他基于变换器的最先进的视频和图像领域的UDA方法可以提高性能。代码将免费提供。
- 图表
- 解决问题本篇论文旨在解决视频领域的无监督领域自适应问题,提出了一种基于Transformer和注意力机制的TransferAttn框架,并引入了DTAB模块来增强其可迁移性。
- 关键思路TransferAttn框架利用Transformer层作为特征编码器,并将空间和时间的可迁移性关系纳入注意力机制中,以实现不同主干网络之间的跨域知识适应。DTAB模块则通过将自我注意机制转化为可迁移性注意机制,增强了ViT的迁移能力。
- 其它亮点论文在UCF-HMDB、Kinetics-Gameplay和Kinetics-NEC Drone数据集上进行了大量实验,证明了TransferAttn相比于现有方法的有效性。同时,DTAB模块也可以应用于其他基于Transformer的领域自适应方法,并取得了性能提升。论文还承诺将开源代码。
- 最近的相关研究包括:Unsupervised Domain Adaptation for Video Recognition Using Contrasting Domain Sampling (CVPR 2021)、Temporal Attentive Alignment for Large-scale Video Domain Adaptation (ICCV 2019)等。
沙发等你来抢
去评论
评论
沙发等你来抢