LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival

2024年03月16日
  • 简介
    图像文本检索(ITR)在各种遥感(RS)应用中起着重要作用。然而,创建包含视觉和语言模态的ITR数据集不仅需要大量的地理空间采样区域,还需要不同的类别和详细的描述。为此,我们介绍了一个名为LuojiaHOG的图像字幕数据集,它具有地理感知能力、易于标签扩展和全面字幕生成的特点。LuojiaHOG采用分层空间抽样、可扩展的分类系统以及详细的字幕生成。此外,我们提出了一个基于CLIP的图像语义增强网络(CISEN)来促进复杂的ITR。CISEN由两个组成部分组成,即双路径知识转移和渐进式跨模态特征融合。LuojiaHOG的全面统计数据显示了其采样多样性、标签数量和描述粒度的丰富性。在各种最先进的ITR模型上对LuojiaHOG进行评估,包括ALBEF、ALIGN、CLIP、FILIP、Wukong、GeoRSCLIP和CISEN。我们使用第二和第三级标签通过适配器调整来评估这些视觉语言模型,CISEN展现出了卓越的性能。例如,在第三级ITR任务中,它的WMAP@5得分分别为88.47%和87.28%,是最高的。特别是,与其基线相比,CISEN在WMAP@5方面展现了约1.3%和0.9%的提高。这些发现突显了CISEN在跨图像和文本准确检索相关信息方面的进步。LuojiaHOG和CISEN可以作为未来RS图像文本对齐研究的基础资源,促进各种视觉语言应用。
  • 图表
  • 解决问题
    本文旨在解决遥感应用中图像-文本检索(ITR)的问题。具体而言,如何创建包含视觉和语言模态的ITR数据集,需要大量的地理空间采样区域、各种类别和详细描述。
  • 关键思路
    本文提出了一个地理感知、标签扩展友好、综合描述的图像字幕数据集LuojiaHOG,采用分层空间采样、可扩展分类系统和详细的字幕生成。此外,还提出了基于CLIP的图像语义增强网络(CISEN),以提高复杂的ITR。
  • 其它亮点
    本文的亮点包括:LuojiaHOG数据集的丰富性、CISEN模型的优越性能、实验的详细设计和数据集的开源。本文的工作可以为未来的RS图像-文本对齐研究提供基础资源,促进各种视觉-语言应用。
  • 相关研究
    与本文相关的最新研究包括ALBEF、ALIGN、CLIP、FILIP、Wukong、GeoRSCLIP等最先进的ITR模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论