多模态｜通过视频-文本对匹配的视频预训练模型

论文：Learning Spatiotemporal Features via Video and Text Pair Discrimination 作者：Tianhao Li & Limin Wang 单位：南京大学代码：https://github.com/MCG-NJU/CPD-Video 推荐理由：大部分视频特征的获取依赖于大规模的人工标注的数据集，本文提出的CPD模型借助contrastive learning的思想预测视频和文本的匹配关系，对视频网络进行预训练。

具体来讲，作者的目标是为了提高相匹配的视频和文本在特征空间的相似度，形式化描述为最大化视频和文本相匹配的条件概率。

作者在知乎上对论文进行了更为详细的讲解

内容中包含的图片若涉及版权问题，请及时与我们联系删除