H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

简介

通用的大规模视觉语言模型（VLMs）正在快速发展，但在遥感（RS）领域仍表现不佳，这是由于RS图像的独特和专业化性质以及当前VLMs的有限空间感知能力所致。现有的遥感专用视觉语言模型（RSVLMs）仍有相当大的改进潜力，主要是由于缺乏大规模、高质量的RS视觉语言数据集。我们构建了HqDC-1.4M，这是一个包含140万个图像-标题对的大规模、高质量、详细的遥感图像标题数据集，不仅提高了RSVLM对RS图像的理解能力，而且显著改善了模型的空间感知能力，如定位和计数，从而增强了RSVLM的实用性。此外，为了解决RSVLM中不可避免的“幻觉”问题，我们开发了RSSA，这是第一个旨在增强RSVLM自我感知能力的数据集。通过将各种无法回答的问题纳入典型的RS视觉问答任务中，RSSA有效地提高了模型输出的真实性并减少了幻觉，从而增强了RSVLM的诚实性。基于这些数据集，我们提出了H2RSVLM，即有益和诚实的遥感视觉语言模型。H2RSVLM在多个RS公共数据集上取得了出色的表现，并能够识别并拒绝回答无法回答的问题，有效缓解了错误的生成。我们将在https://github.com/opendatalab/H2RSVLM上发布代码、数据和模型权重。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

构建帮助和诚实的遥感视觉语言模型，以解决当前遥感图像领域中VLMs的性能问题和'幻觉'问题
关键思路

构建了两个大规模遥感图像-文字数据集，即HqDC-1.4M和RSSA，分别用于提高遥感图像的空间感知能力和自我意识能力，从而构建出H2RSVLM
其它亮点

论文提出的H2RSVLM在多个遥感图像公共数据集上表现出色，能够识别和拒绝回答无法回答的问题，有效减少了错误的生成。同时，研究者将代码、数据和模型权重开源在GitHub上
相关研究

最近的相关研究包括基于遥感图像的视觉问答和遥感图像分类等方向的研究，例如《A Survey of Remote Sensing Image Classification Techniques: A Comprehensive Study》和《Visual Question Answering for Remote Sensing Images Using a Fine-Grained Attention Mechanism》等

H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

提问交流

提问交流