Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval

2024年04月23日
  • 简介
    本文介绍了一种称为组合图像检索(CIR)的任务,它可以根据提供的文本修改,检索与查询图像相似的图像。目前的技术依赖于有标签的三元组进行监督学习,其中包括参考图像、文本和目标图像。但是这些特定的三元组不如简单的图像-文本对普遍可用,限制了CIR及其可扩展性的广泛使用。另一方面,零样本CIR可以相对容易地使用图像-字幕对进行训练,而不考虑图像之间的关系,但这种方法往往会产生较低的准确性。本文提出了一种新的半监督CIR方法,其中我们在辅助数据中搜索参考图像及其相关的目标图像,并学习基于大型语言模型的视觉差分生成器(VDG)来生成描述两者之间视觉差异(即视觉差分)的文本。VDG具备流畅的语言知识和模型不可知性,可以生成伪三元组以提高CIR模型的性能。我们的方法显著改进了现有的监督学习方法,并在CIR基准测试中取得了最先进的结果。
  • 作者讲解
  • 图表
  • 解决问题
    提高Composed Image Retrieval (CIR)的准确率和可扩展性,解决数据不足的问题。
  • 关键思路
    提出一种基于Visual Delta Generator (VDG)的半监督CIR方法,通过在辅助数据中搜索参考图像及其相关目标图像,并学习VDG生成描述两者视觉差异的文本,从而生成伪三元组以提高CIR模型的性能。
  • 其它亮点
    使用了大型语言模型和VDG生成伪三元组,显著提高了CIR模型的准确率,实验结果表明该方法在CIR基准测试中取得了最优结果。论文提供了开源代码和使用的数据集,值得进一步研究。
  • 相关研究
    最近的相关研究包括:'Deep Metric Learning for Composed Image Retrieval'、'Zero-Shot Composed Image Retrieval'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问