- 简介远程感知图像-文本检索(RSITR)对于远程感知(RS)领域的知识服务和数据挖掘至关重要。考虑到图像内容的多尺度表示和文本词汇可以使模型学习到更丰富的表示并增强检索能力。当前的多尺度RSITR方法通常将多尺度融合的图像特征与文本特征进行对齐,但忽略了在不同尺度上对齐图像-文本对。这种疏忽限制了它们学习适用于有效检索的联合表示的能力。我们引入了一种新颖的多尺度对齐(MSA)方法来克服这种限制。我们的方法包括三个关键创新:(1)多尺度交叉模态对齐变换器(MSCMAT),它计算单尺度图像特征和定位的文本特征之间的交叉注意力,在一个小批次中集成全局文本上下文以得出匹配分数矩阵,(2)多尺度交叉模态语义对齐损失,强制在不同尺度上进行语义对齐,(3)跨尺度多模态语义一致性损失,使用最大尺度的匹配矩阵来指导较小尺度上的对齐。我们在多个数据集上评估了我们的方法,展示了它在各种视觉骨干和现有最先进方法上的优越性。我们的项目GitHub网址是:https://github.com/yr666666/MSA。
- 图表
- 解决问题本论文旨在解决遥感图像-文本检索中多尺度表示的问题,通过多尺度交叉对齐,提高模型学习的表示能力和检索效果。
- 关键思路本论文提出了一种新的多尺度对齐方法(MSA),包括多尺度跨模态对齐Transformer(MSCMAT)、多尺度跨模态语义对齐损失和跨尺度多模态语义一致性损失。MSCMAT计算单尺度图像特征和局部文本特征之间的交叉注意力,将全局文本上下文集成到一个小批次中,以得出匹配得分矩阵。
- 其它亮点本文在多个数据集上进行了评估,展示了其在各种视觉骨干和现有最先进方法上的有效性,同时提供了开源代码。值得进一步研究的工作包括如何将MSA应用于其他跨模态任务、如何将其扩展到更广泛的数据类型和如何进一步改进其性能。
- 在遥感图像-文本检索领域的相关研究包括:1. Multi-Modal Multi-Scale Deep Learning for Large-Scale Image Annotation (CVPR2016);2. Multi-Scale Attention with Dense Encoder for VQA and Image Captioning (AAAI2019);3. Multi-Modal and Multi-Scale Deep Feature Learning for Large-Scale Scene Recognition (TIP2017)。
沙发等你来抢
去评论
评论
沙发等你来抢