- 简介我们研究了自我中心视频的无监督域自适应问题。我们提出了一种基于Transformer的模型来学习类别判别和域不变的特征表示。它由两个新颖的设计组成。第一个模块被称为生成对抗域对齐网络,旨在学习域不变表示。它同时以对抗的方式学习掩码生成器和域不变编码器。域不变编码器被训练以最小化源域和目标域之间的距离。相反,掩码生成器旨在通过最大化域距离来产生具有挑战性的掩码。第二个模块是掩码一致性学习模块,用于学习类别判别表示。它强制要求掩码目标视频和它们的完整形式之间的预测一致性。为了更好地评估域自适应方法的有效性,我们构建了一个更具挑战性的自我中心视频基准,U-Ego4D。我们的方法在Epic-Kitchen和提出的U-Ego4D基准上实现了最先进的性能。
- 图表
- 解决问题本文旨在解决无监督域适应问题,提出了一种基于Transformer的模型来学习类别区分和域不变特征表示,特别针对自我中心视频领域。
- 关键思路本文提出的模型包括两个模块:GAN领域对齐网络和掩码一致性学习模块。前者通过对抗学习同时学习掩码生成器和域不变编码器,后者通过强制要求掩码目标视频和完整视频的预测一致性来学习类别区分特征表示。
- 其它亮点本文提出的U-Ego4D数据集是自我中心视频领域的一个更具挑战性的基准,实验结果表明本文方法在Epic-Kitchen和U-Ego4D基准上均取得了最先进的性能,并且开源了代码。
- 最近在自我中心视频领域的相关研究包括:Self-Supervised Learning for Ego-Motion Estimation from Monocular RGB Video、Unsupervised Domain Adaptation for Egocentric Action Recognition with Task-Specific Feature Learning等。
沙发等你来抢
去评论
评论
沙发等你来抢