Composed Image Retrieval for Remote Sensing

向作者提问

NEW

简介

这项工作将组合图像检索引入到了遥感领域。它允许通过图像示例和文本描述来查询大型图像存档，丰富了对于单模态查询（视觉或文本）的描述能力。文本部分可以修改各种属性，如形状、颜色或上下文。本文引入了一种新颖的方法，将图像到图像和文本到图像相似度融合起来。我们证明了视觉语言模型具有足够的描述能力，不需要进一步的学习步骤或训练数据。我们提出了一个新的评估基准，重点关注颜色、上下文、密度、存在性、数量和形状的修改。我们的工作不仅在这项任务上取得了最新的技术成果，而且也是填补遥感图像检索领域空白的基础性一步。代码可在此处找到：https://github.com/billpsomas/rscir。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图在遥感图像检索中引入组合图像检索，通过图像示例和文本描述的交替查询大型图像库，丰富对于单模态查询的描述能力，包括视觉或文本查询。文本部分可以修改各种属性，例如形状、颜色或上下文。本文引入了一种融合图像到图像和文本到图像相似度的新方法。作者证明了视觉-语言模型具有足够的描述能力，不需要进一步的学习步骤或训练数据。作者提供了一个新的评估基准，重点关注颜色、上下文、密度、存在、数量和形状的修改。本文不仅设置了这一任务的最新技术水平，而且作为解决遥感图像检索领域中的一个空白的基础步骤。代码位于：https://github.com/billpsomas/rscir
关键思路

本文的关键思路是在遥感图像检索中引入组合图像检索，通过图像示例和文本描述的交替查询大型图像库，丰富对于单模态查询的描述能力，包括视觉或文本查询。本文引入了一种融合图像到图像和文本到图像相似度的新方法。作者证明了视觉-语言模型具有足够的描述能力，不需要进一步的学习步骤或训练数据。
其它亮点

本文的亮点包括：在遥感图像检索中引入组合图像检索；使用视觉-语言模型丰富对于单模态查询的描述能力；提供了一个新的评估基准，重点关注颜色、上下文、密度、存在、数量和形状的修改。作者提供了开源代码，可以在https://github.com/billpsomas/rscir找到。
相关研究

最近在这个领域中，还有一些相关的研究被进行，例如“Multimodal Remote Sensing Image Retrieval via Deep Learning”和“Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问