- 简介现有的视频语料库时刻检索(VCMR)受到粗粒度理解的限制,这阻碍了在给定细粒度查询时进行精确定位视频片段。本文提出了一个更具挑战性的细粒度VCMR基准,要求方法在其他部分匹配的候选项中定位最佳匹配的片段。为了提高数据集构建效率并保证高质量的数据注释,我们提出了VERIFIED,一种自动视频文本注释管道,以生成带有可靠的细粒度静态和动态的字幕。具体而言,我们利用大型语言模型(LLM)和大型多模型(LMM)与我们提出的静态和动态增强字幕模块,为每个视频生成多样化的细粒度字幕。为了过滤掉LLM幻觉引起的不准确注释,我们提出了一种细粒度感知的噪声评估器,在其中使用扰动的硬负样本增强对比和匹配损失来微调视频基础模型。利用VERIFIED,我们构建了一个更具挑战性的细粒度VCMR基准,包括Charades-FIG,DiDeMo-FIG和ActivityNet-FIG,这些数据集展示了高水平的注释质量。我们评估了几种最先进的VCMR模型在提出的数据集上,揭示了在VCMR中仍有显著的细粒度视频理解空间。代码和数据集位于\href{https://github.com/hlchen23/VERIFIED}{https://github.com/hlchen23/VERIFIED}。
-
- 图表
- 解决问题论文旨在解决现有视频语料库的时刻检索(VCMR)在精细查询时定位不准的问题,提出了一个更具挑战性的细粒度VCMR基准,需要方法从语料库中定位最匹配的时刻,同时考虑其他部分匹配的候选项。
- 关键思路提出了VERIFIED,一个自动的视频-文本注释流水线,使用大型语言模型和大型多模型来生成每个视频的多样化细粒度字幕,并使用Fine-Granularity Aware Noise Evaluator过滤掉LLM幻觉引起的不准确注释。
- 其它亮点论文构建了一个更具挑战性的细粒度VCMR基准,包含Charades-FIG、DiDeMo-FIG和ActivityNet-FIG,并提出了VERIFIED自动注释流水线来生成高质量的注释。实验结果表明,VCMR领域仍有很大的细粒度视频理解空间。
- 相关研究包括:1. TACoS:Temporal Activity Localization in Untrimmed Videos with Natural Language Queries;2. DiDeMo:Differentiable Decision Model;3. ActivityNet Captions:Video Captioning Dataset and Baselines。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流