浙大蔡登团队携手微软亚洲研究院,提出了一个新的对比动作表征学习(CARL)框架,以自监督的方式学习逐帧动作表征,尤其是针对长视频;它考虑了时空上下文来提取逐帧表征,是一种基于Transformer的简单而高效的视频编码器。
他们提出了一种新的序列对比损失(SCL),应用于通过一系列时空数据增强获得的两个相关的视图。在FineGym、PennAction和Pouring数据集上的实验表明,该方法在下游细粒度动作分类方面大大优于已有的最新技术。值得一提的是,虽然没有用成对视频进行训练,但该方法在视频对齐和细粒度帧检索任务方面也有着出色的表现。内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢