CLIP由于其强大的泛化性能,简单的代码逻辑,受到了广泛的关注。目前CLIP也被应用到各个其他场景中,在这篇文章中,作者介绍了三篇把图文预训练的模型CLIP拓展到具有时序信息的视频任务中的论文。

本文主要分为两个部分,第一个部分是介绍一下CLIP的原理和流程,第二部分为介绍,目前基于CLIP的视频模型!

1. 论文标题:

Actionclip: A new paradigm for video action recognition

论文链接:

https://arxiv.org/pdf/2109.08472.pdf

代码:

https://github.com/sallymmx/ActionCLIP

2. 论文标题:

CLIP4Caption: CLIP for Video Caption

论文链接:

https://arxiv.org/pdf/2110.06615.pdf

3. 论文标题:

Clip4clip: An empirical study of clip for end to end video clip retrieval

论文链接:

https://arxiv.org/pdf/2104.08860.pdf

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除