- 简介预训练的视觉语言模型在视频理解方面已经显示出有效性。然而,最近的研究并没有充分利用视频中的关键时间信息,仅仅是对逐帧表示进行平均或引用相邻帧。我们引入了时间上下文化CLIP(TC-CLIP),这是一个开创性的视频理解框架,可以有效且高效地利用全面的视频信息。我们提出了时间上下文化(TC),这是一种新颖的分层时间信息注入机制,用于从每个帧中提取核心信息,将相关信息相互连接以总结为上下文标记,并在特征编码过程中最终利用上下文标记。此外,我们的视频条件提示(VP)模块制造上下文标记,以生成文本模态下的信息提示。我们进行了广泛的实验,包括零样本、少样本、基本到新颖和全监督动作识别,以验证我们的TC-CLIP的优越性。对于TC和VP的消融研究证明了我们的设计选择。代码可在https://github.com/naver-ai/tc-clip上获得。
-
- 图表
- 解决问题论文旨在解决视频理解中未充分利用时间信息的问题,提出了一个新的框架TC-CLIP。
- 关键思路论文提出了Temporal Contextualization (TC)机制,将每一帧的核心信息提取出来,跨视频相互连接以总结上下文标记,并在特征编码过程中利用上下文标记,从而有效地利用时间信息。
- 其它亮点论文通过零样本、少样本、基础到新颖和完全监督的行动识别等实验验证了TC-CLIP的卓越性能,同时进行了TC和VP的消融研究,证明了设计选择的合理性。代码已经开源,可在GitHub上获取。
- 最近的相关研究包括:Pretrained vision-language models for video understanding, Learning spatiotemporal features with 3D convolutional networks, Temporal relational reasoning in videos, 等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流