PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning

2024年05月16日
  • 简介
    遥感图像-文本检索是遥感解释任务的基础,有助于对视觉和语言表示进行对齐。本文介绍了一种先验指导表示(PIR)学习范式,利用先验知识指导视觉和文本表示的自适应学习。基于PIR,设计了一个领域自适应的遥感图像-文本检索框架PIR-ITR,以解决视觉-语言理解任务中的语义噪声问题。然而,通过大量的额外数据来预训练视觉-语言基础模型,遥感图像-文本检索进一步发展成为一个开放领域的检索任务。在此基础上,我们提出了PIR-CLIP,一种基于领域特定CLIP的遥感图像-文本检索框架,以解决遥感视觉-语言表示中的语义噪声,并进一步提高开放领域检索性能。在视觉表示方面,基于空间-PAE的视觉指导表示(VIR)利用遥感场景识别的先验知识,通过构建置信矩阵选择关键特征,以减少语义噪声的影响。在文本表示方面,基于时间-PAE的语言循环注意力(LCA)利用前一个时间步骤循环激活当前时间步骤,以增强文本表示能力。提出了一种聚类关联损失(AL),以限制类间关系并减少公共子空间中的语义混淆区域。综合实验表明,PIR可以增强视觉和文本表示,并在两个基准数据集RSICD和RSITMD上优于现有技术的闭域和开放域检索方法。
  • 图表
  • 解决问题
    本文旨在解决遥感图像-文本检索中的语义噪声问题,并提出了一种先验指令表示(PIR)学习范式,以指导视觉和文本表示的自适应学习。
  • 关键思路
    本文提出了PIR-CLIP框架,利用VIR和LCA方法分别处理图像和文本表示,并使用集群关联损失(AL)来约束共同子空间中的语义混淆区域。
  • 其它亮点
    本文的亮点包括使用PIR学习范式来指导自适应学习,提出了PIR-CLIP框架来解决语义噪声问题,并在RSICD和RSITMD数据集上进行了全面的实验,超越了当前领域的最新方法。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如:'Learning Cross-Modal Retrieval with Multi-Attention Fusion for Remote Sensing Images and Texts'和'Triplet-loss-based Deep Metric Learning for Remote Sensing Image Retrieval'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论