本文介绍南京大学计算机系媒体计算组于2020年初公开到arxiv上的一篇文章: CPD (Learning Spatiotemporal Features via Video and Text Pair Discrimination)。 实验在UCF101上获得最优的结果,且HMDB51也非常有竞争力,值得注意的是,本研究使用的数据量远远小于其他方法所使用的数据(1到100 million个视频不等),显示出本研究视频文本匹配的目标函数以及课程学习的策略的有效性。
研究背景:
现在大部分视频特征的获取都依赖于大规模的人工标注数据集,而视频的标注相比于图片更加昂贵,难以扩展到更大的规模,同时,我们观察到互联网上的视频常常伴有非常丰富的多模态信息,如文本、声音等,与标注信息相比,这些数据存在广泛且易于获得,能够比较容易地扩大到更大的规模。
我们主要利用网络上的视频以及视频本身的描述信息 (Instagram中的视频描述、Youtube中的视频标题),借助contrastive learning的思想预测视频和文本的匹配关系 (Cross-modal Pair Discrimination),对视频网络进行预训练。
通过预训练得到的视频特征在较小的动作识别数据集UCF101和HMDB51数据集上进行微调/训练线性分类器,效果均优于当前的自监督、多模态监督的视频预训练方法。同时,由于硬件资源的限制,与其他预训练的文章相比,我们使用的数据规模也相对较小(300k个视频文本对,单机8卡训练),也希望能为对这方面感兴趣但计算资源有限的同学提供一些参考。
值得一提的是,OpenAI的最新工作CLIP利用与本文非常相似的对比学习的思路,将数据规模扩大至400m个图片和文本对,获得非常令人惊艳的效果,在ImageNet上zero shot的效果可以有监督结果相媲美,也可以作为判别器帮助图像生成模型生成真实高清的图像,展示了这一类方法的巨大潜力。
论文链接: https://arxiv.org/abs/2001.05691 代码链接: https://github.com/MCG-NJU/CPD-Video
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢