CoVR: Learning Composed Video Retrieval from Web Video Captions
解决问题:该论文旨在解决Composed Image Retrieval(CoIR)中手动注释数据集的成本高昂和不可扩展性的问题,提出了一种可扩展的自动数据集创建方法,并将其扩展到包括composed video retrieval(CoVR)的任务中。
关键思路:论文提出了一种通过挖掘大型数据库中具有相似字幕的配对视频,并利用大型语言模型生成相应的修改文本来自动生成triplets的方法。通过应用这种方法,论文自动构建了WebVid-CoVR数据集,其中包含160万个triplets。论文还提出了一个新的CoVR基准,并在手动注释的评估集上进行了基准测试。实验结果表明,在CIRR和FashionIQ基准测试中,使用论文提出的方法训练的CoVR模型有效地转移到CoIR,实现了更好的零-shot性能。
其他亮点:该论文提出的自动数据集创建方法可以大大降低手动注释数据集的成本,并扩展了CoIR任务到CoVR领域。论文还公开了代码、数据集和模型,方便其他研究者使用和参考。此外,该论文的实验结果表明,使用自动生成的数据集进行训练可以提高CoIR和CoVR的性能,这为相关领域的研究提供了新思路。
相关研究:最近的相关研究包括:
- "Composed Image Retrieval with Spatial and Semantic Transformers",作者:Tianyi Wu,机构:University of California, Los Angeles。
- "Composed Image Retrieval with Explicit Composition Models",作者:Xingyu Chen,机构:University of California, Los Angeles。
- "Composed Image Retrieval with Adversarial Learning",作者:Jianlong Fu,机构:National University of Singapore。
论文摘要:这篇文章介绍了一种名为“组合视频检索(CoVR)”的任务,它将文本查询和图像查询结合起来,从而在数据库中搜索相关的图像。以往的CoIR方法通常需要手动注释数据集,包括图像-文本-图像三元组,其中文本描述了从查询图像到目标图像的修改。然而,手动整理CoIR三元组的成本很高,使得这种方法难以扩展。因此,本文提出了一种可扩展的自动数据集创建方法,该方法可以根据视频-字幕对生成三元组,并扩展了任务的范围,包括CoVR。为此,我们从大型数据库中挖掘具有相似字幕的配对视频,并利用大型语言模型生成相应的修改文本。将此方法应用于大规模的WebVid2M集合,我们自动构建了WebVid-CoVR数据集,共包含160万个三元组。此外,我们还介绍了一个新的CoVR基准测试集,以及基准结果。我们的实验进一步证明,使用我们的数据集训练CoVR模型可以有效地转移到CoIR,从而提高了CIRR和FashionIQ基准测试集上的零-shot设置的最新性能。我们的代码、数据集和模型可在https://imagine.enpc.fr/~ventural/covr上公开获取。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢