浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

论文链接：https://arxiv.org/pdf/2203.14957.pdf

浙大蔡登团队携手微软亚洲研究院，提出了一个新的对比动作表征学习（CARL）框架，以自监督的方式学习逐帧动作表征，尤其是针对长视频；它考虑了时空上下文来提取逐帧表征，是一种基于Transformer的简单而高效的视频编码器。

他们提出了一种新的序列对比损失（SCL），应用于通过一系列时空数据增强获得的两个相关的视图。在FineGym、PennAction和Pouring数据集上的实验表明，该方法在下游细粒度动作分类方面大大优于已有的最新技术。值得一提的是，虽然没有用成对视频进行训练，但该方法在视频对齐和细粒度帧检索任务方面也有着出色的表现。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

评论列表

评论