Leveraging Temporal Contextualization for Video Action Recognition

简介

预训练的视觉语言模型在视频理解方面已经显示出有效性。然而，最近的研究并没有充分利用视频中的关键时间信息，仅仅是对逐帧表示进行平均或引用相邻帧。我们引入了时间上下文化CLIP（TC-CLIP），这是一个开创性的视频理解框架，可以有效且高效地利用全面的视频信息。我们提出了时间上下文化（TC），这是一种新颖的分层时间信息注入机制，用于从每个帧中提取核心信息，将相关信息相互连接以总结为上下文标记，并在特征编码过程中最终利用上下文标记。此外，我们的视频条件提示（VP）模块制造上下文标记，以生成文本模态下的信息提示。我们进行了广泛的实验，包括零样本、少样本、基本到新颖和全监督动作识别，以验证我们的TC-CLIP的优越性。对于TC和VP的消融研究证明了我们的设计选择。代码可在https://github.com/naver-ai/tc-clip上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视频理解中未充分利用时间信息的问题，提出了一个新的框架TC-CLIP。
关键思路

论文提出了Temporal Contextualization (TC)机制，将每一帧的核心信息提取出来，跨视频相互连接以总结上下文标记，并在特征编码过程中利用上下文标记，从而有效地利用时间信息。
其它亮点

论文通过零样本、少样本、基础到新颖和完全监督的行动识别等实验验证了TC-CLIP的卓越性能，同时进行了TC和VP的消融研究，证明了设计选择的合理性。代码已经开源，可在GitHub上获取。
相关研究

最近的相关研究包括：Pretrained vision-language models for video understanding, Learning spatiotemporal features with 3D convolutional networks, Temporal relational reasoning in videos, 等。

Leveraging Temporal Contextualization for Video Action Recognition

提问交流

提问交流