RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding

简介

远程感知图像智能理解模型正在经历一次新的深刻范式转变，这是由多模式大语言模型（MLLM）推动的，即从学习领域模型（LaDM）的范式转变为学习预训练的通用基础模型，然后是自适应领域模型（LaGD）的范式。在新的LaGD范式下，导致过去十年中RSI智能理解取得进展的旧数据集不再适用于全新的任务。我们认为必须设计一个新的数据集来轻松处理以下特征的任务：1）泛化：训练模型学习任务之间的共享知识并适应不同的任务；2）理解复杂场景：训练模型理解感兴趣对象的细粒度属性，并能够用自然语言描述场景；3）推理：训练模型能够实现高水平的视觉推理。在本文中，我们使用GPT-4V和现有数据集设计了一个高质量、多样化和统一的RSI理解多模式指令跟随数据集，称为RS-GPT4V。为了实现泛化，我们使用了从GPT-4V通过指令跟随推导出的（问题，答案）来统一诸如字幕和定位等任务；为了实现复杂场景，我们提出了一种具有本地策略的分层指令描述，其中描述了对象的细粒度属性和它们的空间关系，并采用全局策略，将所有本地信息整合起来以得到详细的指令描述；为了实现推理，我们设计了多轮QA对，为模型提供推理能力。实证结果表明，通过RS-GPT4V微调的MLLM可以描述细粒度信息。该数据集可在以下网址获得：https://github.com/GeoX-Lab/RS-GPT4V。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

设计一个适用于遥感图像智能理解的新数据集，以满足通用性、理解复杂场景和推理能力等需求。

关键思路

采用多模态大语言模型（MLLM）的新范式，即从学习领域模型（LaDM）的范式转变为学习预训练的通用基础模型，然后是自适应领域模型（LaGD）。设计了一个高质量、多样化、统一的多模态指令跟随数据集RS-GPT4V，通过GPT-4V和现有数据集，实现了通用性、理解复杂场景和推理能力。

其它亮点

设计了一个多模态指令跟随数据集RS-GPT4V，可以描述细粒度信息，提供了推理能力。

RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding

提问交流

提问交流