- 简介在大型地球观测档案中进行基于图像的检索是具有挑战性的,因为只有查询图像作为指南,就需要在成千上万个候选匹配项之间进行导航。通过使用文本作为支持视觉查询的信息,检索系统在可用性方面获得了优势,但同时也面临着由于无法仅通过简短的标题总结的视觉信号的多样性而导致的困难。因此,作为一项基于匹配的任务,跨模态文本-图像检索经常遭受文本和图像之间信息不对称的困扰。为了解决这个挑战,我们提出了一种适用于遥感图像的知识感知文本-图像检索(KTIR)方法。通过从外部知识图谱中挖掘相关信息,KTIR丰富了搜索查询中可用的文本范围,并缓解了文本和图像之间的信息差距,以实现更好的匹配。此外,通过整合领域特定的知识,KTIR还增强了预训练视觉语言模型在遥感应用中的适应性。在三个常用的遥感文本-图像检索基准测试上的实验结果表明,所提出的知识感知方法导致了多样且一致的检索,优于现有的检索方法。
-
- 图表
- 解决问题论文试图解决如何在大规模地球观测档案中进行基于图像的检索,以及如何解决文本和图像之间的信息不对称问题。
- 关键思路通过挖掘外部知识图谱中的相关信息,KTIR方法可以丰富搜索查询中可用的文本范围,从而缓解文本和图像之间的信息差异,提高匹配效果。
- 其它亮点该方法在三个常用的遥感文本-图像检索基准测试中表现出色,优于现有的检索方法。实验设计合理,并且使用了开源数据集。
- 最近的相关研究包括Cross-modal Retrieval with a Dual Attentive Network for Remote Sensing Images and Texts,Deep Semantic Retrieval for Cross-Modal Hashing with Rich Semantic Information,以及A Hybrid Deep Neural Network for Cross-Modal Retrieval。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流