TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries

2024年07月09日
  • 简介
    本文提出了一项名为“排名视频时刻检索”(Ranked Video Moment Retrieval,RVMR)的任务,通过自然语言查询在一组视频中定位匹配时刻的排名列表。虽然计算机视觉、自然语言处理和信息检索领域已经提出和研究了一些相关任务,但RVMR是最能反映时刻检索实际情况的任务。为了促进RVMR的研究,我们基于TVR数据集中提供的原始视频和现有时刻注释开发了TVR-Ranking数据集。我们的主要贡献是对94,442个查询-时刻对进行相关性级别的手动注释。然后,我们为这个新任务开发了$NDCG@K, IoU\geq \mu$评估指标,并进行了实验,评估了三个基线模型。我们的实验表明,新的RVMR任务给现有模型带来了新的挑战,我们相信这个新数据集对多模式搜索的研究有所贡献。该数据集可在\url{https://github.com/Ranking-VMR/TVR-Ranking}获取。
  • 图表
  • 解决问题
    论文提出了Ranked Video Moment Retrieval (RVMR)这个任务,旨在通过自然语言查询从视频集合中定位匹配时刻的排序列表。这个任务与计算机视觉、自然语言处理和信息检索社区提出和研究的一些相关任务不同,最符合实际的时刻搜索设置。
  • 关键思路
    为了促进RVMR的研究,研究人员开发了基于TVR数据集提供的原始视频和现有时刻注释的TVR-Ranking数据集。他们的关键贡献是手动注释了94442个查询时刻对的相关性级别,并开发了NDCG@K,IoU≥μ的评估指标。通过对三个基准模型进行实验,研究人员发现新的RVMR任务为现有模型带来了新的挑战。
  • 其它亮点
    论文的亮点包括:开发了新的RVMR任务和数据集;手动注释了94442个查询时刻对的相关性级别;开发了NDCG@K,IoU≥μ的评估指标;通过实验发现新的RVMR任务为现有模型带来了新的挑战。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval》、《Video Moment Retrieval via Language Queries: A Task with Large-Scale Video Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论