Composed Image Retrieval for Remote Sensing

2024年05月24日
  • 简介
    这项工作将组合图像检索引入到了遥感领域。它允许通过图像示例和文本描述来查询大型图像存档,丰富了对于单模态查询(视觉或文本)的描述能力。文本部分可以修改各种属性,如形状、颜色或上下文。本文引入了一种新颖的方法,将图像到图像和文本到图像相似度融合起来。我们证明了视觉语言模型具有足够的描述能力,不需要进一步的学习步骤或训练数据。我们提出了一个新的评估基准,重点关注颜色、上下文、密度、存在性、数量和形状的修改。我们的工作不仅在这项任务上取得了最新的技术成果,而且也是填补遥感图像检索领域空白的基础性一步。代码可在此处找到:https://github.com/billpsomas/rscir。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图在遥感图像检索中引入组合图像检索,通过图像示例和文本描述的交替查询大型图像库,丰富对于单模态查询的描述能力,包括视觉或文本查询。文本部分可以修改各种属性,例如形状、颜色或上下文。本文引入了一种融合图像到图像和文本到图像相似度的新方法。作者证明了视觉-语言模型具有足够的描述能力,不需要进一步的学习步骤或训练数据。作者提供了一个新的评估基准,重点关注颜色、上下文、密度、存在、数量和形状的修改。本文不仅设置了这一任务的最新技术水平,而且作为解决遥感图像检索领域中的一个空白的基础步骤。代码位于:https://github.com/billpsomas/rscir
  • 关键思路
    本文的关键思路是在遥感图像检索中引入组合图像检索,通过图像示例和文本描述的交替查询大型图像库,丰富对于单模态查询的描述能力,包括视觉或文本查询。本文引入了一种融合图像到图像和文本到图像相似度的新方法。作者证明了视觉-语言模型具有足够的描述能力,不需要进一步的学习步骤或训练数据。
  • 其它亮点
    本文的亮点包括:在遥感图像检索中引入组合图像检索;使用视觉-语言模型丰富对于单模态查询的描述能力;提供了一个新的评估基准,重点关注颜色、上下文、密度、存在、数量和形状的修改。作者提供了开源代码,可以在https://github.com/billpsomas/rscir找到。
  • 相关研究
    最近在这个领域中,还有一些相关的研究被进行,例如“Multimodal Remote Sensing Image Retrieval via Deep Learning”和“Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问