Open Vocabulary Multi-Label Video Classification

2024年07月12日
  • 简介
    预训练的视觉语言模型(VLMs)已经在开放词汇计算机视觉任务中取得了重大进展,例如图像分类、目标检测和图像分割。最近的一些工作集中在将VLM扩展到视频中的开放词汇单标签动作分类。然而,以前的方法在整体视频理解方面存在缺陷,这需要在开放词汇设置中同时识别多个动作和实体,例如视频中的对象。我们将这个问题定义为开放词汇多标签视频分类,并提出了一种方法来使预训练的VLM(例如CLIP)适应解决这个任务。我们利用大型语言模型(LLMs)为VLM提供关于类标签的语义指导,以提高其在开放词汇性能方面的表现,提出了两个关键贡献。首先,我们提出了一种端到端可训练的架构,学习提示LLM生成CLIP文本编码器的软属性,使其能够识别新的类别。其次,我们将一个时间建模模块集成到CLIP的视觉编码器中,以有效地建模视频概念的时空动态,并提出了一种新的正则化微调技术,以确保视频领域具有强大的开放词汇分类性能。我们广泛的实验展示了我们的方法在多个基准数据集上的有效性。
  • 图表
  • 解决问题
    本论文旨在解决开放词汇多标签视频分类问题,即同时识别视频中的多个动作和实体,并提出了一种基于预训练视觉-语言模型的解决方案。
  • 关键思路
    论文提出了一种端到端可训练的架构,学习提示语言模型生成软属性,以提高视觉-语言模型在开放词汇情况下的性能,并将时序建模模块集成到视觉编码器中,以有效地建模视频概念的时空动态。
  • 其它亮点
    论文在多个基准数据集上进行了广泛的实验,证明了该方法的有效性。论文使用的数据集和开源代码也被公开。此外,论文提出的思路也为后续的研究提供了新的思路和方向。
  • 相关研究
    在这个领域中,最近的相关研究包括《End-to-End Learning of Video Frame Interpolation Using Spatiotemporal Transformers》和《Learning Correspondence from the Cycle-Consistency of Time》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论