RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

2024年05月29日
  • 简介
    文本-视频检索(TVR)旨在将相关视频内容与自然语言查询对齐。迄今为止,大多数最先进的TVR方法都是基于大规模预训练视觉语言模型(例如CLIP)学习图像到视频的迁移学习。然而,完全微调这些预训练模型以进行TVR会产生极高的计算成本。因此,我们提出了一种使用稀疏和相关的AdaPter(RAP)进行高效文本-视频检索的方法,即使用少量参数化层微调预训练模型。为了适应文本-视频场景,我们为我们的RAP配备了两个必不可少的特征:时间稀疏性和相关性。具体而言,我们提出了一个低秩调制模块来优化来自冻结的CLIP骨干的每个图像特征,这样可以突出视频特征中的显著帧,同时减轻时间冗余。此外,我们引入了一个异步自注意机制,首先选择顶部响应的视觉补丁,并使用可学习的时间和补丁偏移量增强它们之间的相关建模。对于四个TVR数据集的广泛实验表明,与完全微调的对照组和其他参数高效的微调方法相比,RAP实现了更优越或可比较的性能。
  • 图表
  • 解决问题
    本论文旨在解决文本-视频检索中的相关问题。作者试图通过提出一种高效的方法,即稀疏且相关的AdaPter(RAP)来进行预训练模型的微调,以提高文本-视频检索的性能。
  • 关键思路
    该论文的关键思路是通过使用低秩调制模块和异步自注意力机制来实现文本-视频检索。这些模块可以从预训练的CLIP骨干网络中提取图像特征并强调视频特征中的显著帧,同时减少时间冗余。此外,异步自注意力机制可以选择响应最强的视觉块,并使用可学习的时间和块偏移量增强它们之间的相关性建模。
  • 其它亮点
    该论文的实验结果表明,与完全微调的对照组和其他参数有效的微调方法相比,RAP在四个文本-视频检索数据集上具有更优的性能。此外,作者还提供了开源代码。
  • 相关研究
    最近在这个领域中的相关研究包括使用不同的预训练模型和微调方法进行文本-视频检索,例如CLIP、ViLBERT和UniVL等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论