论文标题:Video Contrastive Learning with Global Context
论文链接:https://arxiv.org/abs/2108.02722
代码链接:https://github.com/amazon-research/video-contrastive-learning
作者单位:波恩大学 & 亚马逊
这是第一作者旷皓飞在亚马逊实习期间的工作。他今年刚从上海科技大学硕士毕业,开始在波恩大学读博。
本文提出一种视频级对比学习新方法,在行为识别、视频检索任务上表现SOTA。性能优于SeCo、DPC等网络,代码刚刚开源。
对比学习已经彻底改变了自监督图像表示学习领域,并且最近被应用于视频领域。对比学习的最大优势之一是,它允许我们灵活定义强大的损失目标,只要我们能找到合理的方法来制定正负样本进行对比。然而,现有方法严重依赖短程时空显著性来形成剪辑级别的对比信号,从而限制了自己使用全局上下文。在本文中,我们提出了一种新的基于片段的视频级对比学习方法来制定正对。我们的公式能够捕获视频中的全局上下文,因此对时间内容变化具有鲁棒性。我们还结合了时间顺序正则化项来强制执行视频的固有顺序结构。大量实验表明,我们的视频级对比学习框架 (VCLR) 在下游动作分类、动作定位和视频检索的五个视频数据集上的表现优于以前的最新技术。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢