Revisiting Relevance Feedback for CLIP-based Interactive Image Retrieval

2024年04月25日
  • 简介
    许多图像检索研究使用度量学习来训练图像编码器。然而,度量学习无法处理用户偏好的差异,并且需要数据来训练图像编码器。为了克服这些限制,我们重新审视了相关反馈,这是一种交互式检索系统的经典技术,并提出了一种基于交互式反馈的CLIP图像检索系统。我们的检索系统首先执行检索,通过二进制反馈收集每个用户的独特偏好,并返回用户喜欢的图像。即使用户有各种偏好,我们的检索系统也可以通过反馈学习每个用户的偏好并适应这些偏好。此外,我们的检索系统利用了CLIP的零-shot可转移性,在没有训练的情况下实现了高精度。我们通过实验证明,尽管没有为每个数据集专门训练图像编码器,我们的检索系统在基于类别的图像检索方面与最先进的度量学习相竞争。此外,我们还设置了两个额外的实验设置,其中用户具有各种偏好:基于单个标签的图像检索和条件图像检索。在这两种情况下,我们的检索系统有效地适应了每个用户的偏好,与没有反馈的图像检索相比,结果精度有所提高。总体而言,我们的工作凸显了将CLIP与经典相关反馈技术相结合以增强图像检索的潜在好处。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决图像检索中用户偏好不同和需要训练图像编码器的问题,通过重新思考相关反馈的经典技术,提出了一种基于交互式CLIP的图像检索系统,并结合相关反馈来适应用户偏好。
  • 关键思路
    论文提出了一种基于交互式CLIP和相关反馈的图像检索系统,通过二进制反馈收集每个用户的独特偏好,并返回用户喜欢的图像,从而适应不同的用户偏好,同时利用CLIP的零样本可迁移性,在不进行训练的情况下实现高精度图像检索。
  • 其它亮点
    论文中的实验设计了三种不同的情境来验证图像检索系统的有效性,包括基于类别的图像检索、基于单标签的图像检索和条件图像检索。实验结果表明,该系统在适应用户偏好方面表现出色,并且能够在不进行训练的情况下与现有的基于度量学习的方法竞争。此外,论文还指出了将CLIP与相关反馈技术结合的潜在优势。
  • 相关研究
    在最近的相关研究中,也有一些研究探讨了基于相关反馈的图像检索系统,如《Deep Image Retrieval: Learning global representations for image search》。另外,也有一些研究探索了如何利用CLIP来进行图像检索,如《CLIP: Connecting Text and Images》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问