- 简介在组合视频检索中,模型的输入为一段视频和一个修改视频内容的文本描述。其目的是从视频数据库中检索出相应的含有修改内容的视频。在这个具有挑战性的任务中,第一步是获取大规模的训练数据集并收集高质量的评估基准。本文介绍了EgoCVR,一种新的评估基准,用于使用大规模自我中心视频数据集进行细粒度组合视频检索。EgoCVR包括2,295个查询,专门关注高质量的时间视频理解。我们发现,现有的组合视频检索框架无法实现必要的高质量时间视频理解。为了解决这个缺点,我们采用了一种简单的无需训练的方法,提出了一个通用的组合视频检索重新排序框架,并证明这在EgoCVR上取得了强大的结果。我们的代码和基准在https://github.com/ExplainableML/EgoCVR上免费提供。
- 图表
- 解决问题本论文旨在解决复合视频检索中的高质量时间视频理解问题,并提出了一个新的评估基准EgoCVR。
- 关键思路论文通过提出一个简单的无需训练的方法以及一个通用的重新排序框架来解决高质量时间视频理解问题,从而在EgoCVR基准上实现了强大的结果。
- 其它亮点EgoCVR评估基准包含2295个查询,具有高质量的时间视频理解。通过实验,论文发现现有的复合视频检索框架无法实现必要的高质量时间视频理解。论文提出的方法在EgoCVR基准上取得了强大的结果,并且代码和基准已经开源。
- 与本论文相关的研究包括:1.《Joint Learning of Semantic Alignment and Object Landmark Detection》,2.《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》,3.《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》等。
沙发等你来抢
去评论
评论
沙发等你来抢