本文分享论文『Prompting Visual-Language Models for Efficient Video Understanding』,用 CLIP 做多个视频任务!上交&牛津提出基于 Prompt 将CLIP 拓展到多个视频任务,在 open-set 场景中效果极佳!

论文链接:

https://arxiv.org/abs/2112.04478

项目链接:

https://github.com/ju-chen/Efficient-Prompt

视觉语言预训练在从大型web数据中学习联合视觉文本表示方面显示出巨大的成功,证明了 “Zero-Shot” 泛化的卓越能力。本文提出了一种简单的方法来有效地将一个预训练的视觉语言模型利用最少的训练来适应视频理解新任务。具体而言,作者提出优化一些随机向量,称为“连续提示向量(continuous prompt vectors)”,将新任务转换为与预训练目标相同的格式。

此外,为了弥补静态图像和视频之间的差距,时间信息是用轻量级Transformer编码的,这些Transformer堆叠在帧视觉特征之上。作者进行了广泛的消融研究,以分析关键部件。在动作识别,动作定位和文本视频检索的9个公共基准上,在closed-set, few-shot, open-set场景中,本文模型实现了现有方法的竞争性或SOTA的性能,并且训练了明显更少的参数。

本文的框架如上图所示,作者的目标是有效地引导基于图像的时间语言模型来处理新的下游任务,这个过程称之为模型适应(model adaptation)

内容中包含的图片若涉及版权问题,请及时与我们联系删除