论文:Learning Spatiotemporal Features via Video and Text Pair Discrimination 作者:Tianhao Li & Limin Wang 单位:南京大学 代码:https://github.com/MCG-NJU/CPD-Video 推荐理由:大部分视频特征的获取依赖于大规模的人工标注的数据集,本文提出的CPD模型借助contrastive learning的思想预测视频和文本的匹配关系,对视频网络进行预训练。

具体来讲,作者的目标是为了提高相匹配的视频和文本在特征空间的相似度,形式化描述为最大化视频​和文本​相匹配的条件概率。

作者在知乎上对论文进行了更为详细的讲解

内容中包含的图片若涉及版权问题,请及时与我们联系删除