论文标题:Temporal Contrastive Graph for Self-supervised Video Representation Learning 论文链接:https://arxiv.org/abs/2101.00820 作者单位:中山大学, 暗物智能 本文提出一种用于自监督时空表示学习的时间对比图,可应用于视频行为识别、视频检索等任务,表现SOTA!性能优于PRP、VCOP等方法。
试图充分探索用于自监督视频表示学习的细粒度时间结构和全局局部时间特征,这项工作将密切关注如何利用视频的时间结构,并进一步提出一种新的自监督方法,称为时间对比图(TCG)。与现有的随机混合视频中视频帧或视频片段的方法相反,我们提出的TCG源自混合图对比学习策略,将片段间和片段内时间关系视为用于时间表示的自我监督信号学习。受神经科学研究的启发,人类视觉系统对局部和全局时间变化都敏感,我们提出的TCG将有关帧和代码段顺序的先验知识整合到时间对比图结构中,即片段内/片段间时间对比图形模块,以很好地保留视频帧集和摘要之间的局部和全局时间关系。通过随机删除片段内图或片段间图的边缘并掩盖节点特征,我们的TCG可以生成不同的相关图视图。然后,设计特定的对比损失以最大化不同视图中节点嵌入之间的一致性。为了学习全局上下文表示并自适应地重新校准通道级特征,我们引入了自适应视频片段顺序预测模块,该模块利用视频片段之间的关系知识来预测实际的片段顺序。大量的实验结果表明,在大型动作识别和视频检索基准方面,我们的TCG优于最新方法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢