【论文标题】Semi-Supervised Action Recognition with Temporal Contrastive Learning 【作者团队】Ankit Singh,Omprakash Chakraborty,Ashutosh Varshney,Rameswar Panda,Rogerio Feris,Kate Saenko,Abir Das 【发表时间】2021/01/31 【机构】印度理工学院、MIT-IBM 沃森人工智能实验室、波士顿大学 【论文链接】https://arxiv.org/pdf/2102.02751.pdf
【推荐理由】 本文来自印度理工学院、MIT-IBM 沃森人工智能实验室、波士顿大学联合团队,作者将运动表征与速率不变性结合,设计了一种用于动作识别的两通道时序对比模型,该方法具有极强的泛化性和鲁棒性。
由于缺乏活动的标签,根据少数带有标签的视频识别动作是一个具有挑战性的问题。在本文中,作者利用「改变视频速度并不改变动作」这一事实,通过学习两通道时序对比模型来解决这个问题。 具体而言,作者提出最大化两种不同速度的相同视频的编码表征之间的相似性,以及最小化不同速度下的不同视频之间的相似性。通过这种方式,我们可以从「时间」的角度使用丰富的监督信息,这些信息不会出现在无监督的视频池中。通过这种简单而有效的操纵视频播放速率的策略,本文提出的对比学习方法在多个不同的基准数据集和网络架构上显著优于先进的、最先进的半监督图像识别方法在视频任务中的扩展方法。有趣的是,本文提出的方法可以利用领域外的未标记视频,这说明了其泛化性和鲁棒性。本文作者通过严格的消融分析来验证了本文提出的方法。
本文的贡献如下: (1)通过以两种不同的速度处理未标记视频,提出了一种双通道时间对比半监督动作识别框架。 (2)作者发现,直接使用在不同帧率下学习到的视频表征的对比目标实例,可能会漏掉相同固有类别样本之间共享的关键信息。本文提出了一种新的组对比术士,将判别性运动表征与速率U不变性相结合,显著提高了变监督动作识别性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢