怎么用图文预训练模型CLIP做视频任务？

CLIP由于其强大的泛化性能，简单的代码逻辑，受到了广泛的关注。目前CLIP也被应用到各个其他场景中，在这篇文章中，作者介绍了三篇把图文预训练的模型CLIP拓展到具有时序信息的视频任务中的论文。

本文主要分为两个部分，第一个部分是介绍一下CLIP的原理和流程，第二部分为介绍，目前基于CLIP的视频模型！

1. 论文标题：

Actionclip: A new paradigm for video action recognition

论文链接：

代码：

2. 论文标题：

CLIP4Caption: CLIP for Video Caption

论文链接：

3. 论文标题：

Clip4clip: An empirical study of clip for end to end video clip retrieval

论文链接：

内容中包含的图片若涉及版权问题，请及时与我们联系删除