MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

2024年03月28日
  • 简介
    本文的核心观点是,文本指令可以使图像检索具有比视觉相似性更丰富的关系。为了证明这一点,作者提出了MagicLens,这是一系列支持开放式指令的自监督图像检索模型。MagicLens的建立基于一个关键的新颖见解:自然出现在同一网页上的图像对包含广泛的隐含关系(例如,内部视图),我们可以通过合成指令来将这些隐含关系变得明确。在从网络中挖掘出的具有丰富语义关系的36.7M(查询图像,指令,目标图像)三元组的训练下,MagicLens在各种图像检索任务的八个基准测试中取得了与以往最佳结果相当或更好的结果,同时保持高参数效率和显著较小的模型大小。在一个包含1.4M个未见过的图像的语料库上进行的额外人类分析进一步展示了MagicLens支持的搜索意图的多样性。代码和模型可在https://open-vision-language.github.io/MagicLens/上公开获取。
  • 图表
  • 解决问题
    本论文旨在解决图像检索中难以捕捉多方面搜索意图的问题,提出了一种支持开放式指令的自监督图像检索模型MagicLens。
  • 关键思路
    MagicLens的核心思想是通过基础模型合成指令,将自然出现在同一网页上的图像对之间的隐式关系变得明确,从而实现检索具有更丰富关系的图像。
  • 其它亮点
    论文使用36.7M个三元组进行训练,实现了在多个图像检索任务上与先前最佳结果相当甚至更好的表现。此外,MagicLens保持高参数效率,模型规模显著更小。论文提供了公开代码和模型,并对1.4M张未见过的图像进行了人类分析,进一步证明了MagicLens支持的搜索意图的多样性。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:1. Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering;2. Deep Learning for Matching in Search and Recommendation;3. A Comprehensive Survey on Graph Neural Networks。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论