本文介绍一篇 ACM MM 2022 Oral 的工作。基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,该工作提出了一个全新的文本到视频跨模态检索子任务,即部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。

 

PRVR 任务旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。若一个未经剪辑的长视频中存在某一片段与给出的查询文本相关,则认为该长视频与给出的查询文本呈部分相关的关系。而在传统的 T2VR 任务中,视频都是预剪辑后的短视频,且通常希望检索得到整个视频与文本查询完全相关。

 

相比之下,PRVR 任务更加符合实际应用场景,且更具有挑战性。作者将 PRVR 任务视为一个多示例学习的问题,将视频同时视为由多个片段以及视频帧所组成的包。若文本与长视频的某帧或者某个片段相关,则视为文本与该长视频相关。

 

基于此,作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型除了在 PRVR 任务上表现较好之外,也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。

图片

论文主页:http://danieljf24.github.io/prvr/

代码链接:https://github.com/HuiGuanLab/ms-sl

内容中包含的图片若涉及版权问题,请及时与我们联系删除