- 简介这项工作将组合图像检索引入到了遥感领域。它允许通过图像示例和文本描述来查询大型图像库,丰富了对单模态查询(视觉或文本)的描述能力。文本部分可以修改各种属性,如形状、颜色或上下文。介绍了一种新颖的方法,融合了图像到图像和文本到图像的相似度。我们证明了视觉语言模型具有足够的描述能力,不需要进一步的学习步骤或训练数据。我们提出了一个新的评估基准,重点关注颜色、上下文、密度、存在性、数量和形状的修改。我们的工作不仅在这项任务上取得了最新进展,而且还作为解决遥感图像检索领域中的一个差距的基础步骤。代码位于:https://github.com/billpsomas/rscir。
- 图表
- 解决问题本论文尝试解决遥感图像检索中的组合图像检索问题,即通过图像示例和文本描述来查询大型图像库,以实现更准确的检索结果。
- 关键思路本论文提出了一种新的方法,将图像到图像和文本到图像相似性融合,使用视觉-语言模型进行描述,无需额外的学习步骤或训练数据。
- 其它亮点论文使用了一些新的属性,如形状、颜色和上下文,设计了一个新的评估基准,重点考虑了颜色、上下文、密度、存在性、数量和形状的修改。论文不仅在该领域取得了最新的研究成果,而且为解决遥感图像检索领域的空白问题奠定了基础。论文代码已开源。
- 最近的相关研究包括:1.《Multimodal Fusion with Recurrent Neural Networks for Remote Sensing Retrieval》;2.《Multimodal Retrieval of Remote Sensing Images Using Deep Learning and Text》;3.《A Semantic Embedding-based Retrieval Model for Remote Sensing Images》。
沙发等你来抢
去评论
评论
沙发等你来抢