Leveraging Temporal Contextualization for Video Action Recognition

2024年04月15日
  • 简介
    预训练的视觉语言模型在视频理解方面已经显示出有效性。然而,最近的研究并没有充分利用视频中的关键时间信息,仅仅是对逐帧表示进行平均或引用相邻帧。我们引入了时间上下文化CLIP(TC-CLIP),这是一个开创性的视频理解框架,可以有效且高效地利用全面的视频信息。我们提出了时间上下文化(TC),这是一种新颖的分层时间信息注入机制,用于从每个帧中提取核心信息,将相关信息相互连接以总结为上下文标记,并在特征编码过程中最终利用上下文标记。此外,我们的视频条件提示(VP)模块制造上下文标记,以生成文本模态下的信息提示。我们进行了广泛的实验,包括零样本、少样本、基本到新颖和全监督动作识别,以验证我们的TC-CLIP的优越性。对于TC和VP的消融研究证明了我们的设计选择。代码可在https://github.com/naver-ai/tc-clip上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决视频理解中未充分利用时间信息的问题,提出了一个新的框架TC-CLIP。
  • 关键思路
    论文提出了Temporal Contextualization (TC)机制,将每一帧的核心信息提取出来,跨视频相互连接以总结上下文标记,并在特征编码过程中利用上下文标记,从而有效地利用时间信息。
  • 其它亮点
    论文通过零样本、少样本、基础到新颖和完全监督的行动识别等实验验证了TC-CLIP的卓越性能,同时进行了TC和VP的消融研究,证明了设计选择的合理性。代码已经开源,可在GitHub上获取。
  • 相关研究
    最近的相关研究包括:Pretrained vision-language models for video understanding, Learning spatiotemporal features with 3D convolutional networks, Temporal relational reasoning in videos, 等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问