- 简介远程感知图像智能理解模型正在经历一次新的深刻范式转变,这是由多模式大语言模型(MLLM)推动的,即从学习领域模型(LaDM)的范式转变为学习预训练的通用基础模型,然后是自适应领域模型(LaGD)的范式。在新的LaGD范式下,导致过去十年中RSI智能理解取得进展的旧数据集不再适用于全新的任务。我们认为必须设计一个新的数据集来轻松处理以下特征的任务:1)泛化:训练模型学习任务之间的共享知识并适应不同的任务;2)理解复杂场景:训练模型理解感兴趣对象的细粒度属性,并能够用自然语言描述场景;3)推理:训练模型能够实现高水平的视觉推理。在本文中,我们使用GPT-4V和现有数据集设计了一个高质量、多样化和统一的RSI理解多模式指令跟随数据集,称为RS-GPT4V。为了实现泛化,我们使用了从GPT-4V通过指令跟随推导出的(问题,答案)来统一诸如字幕和定位等任务;为了实现复杂场景,我们提出了一种具有本地策略的分层指令描述,其中描述了对象的细粒度属性和它们的空间关系,并采用全局策略,将所有本地信息整合起来以得到详细的指令描述;为了实现推理,我们设计了多轮QA对,为模型提供推理能力。实证结果表明,通过RS-GPT4V微调的MLLM可以描述细粒度信息。该数据集可在以下网址获得:https://github.com/GeoX-Lab/RS-GPT4V。
-
- 图表
- 解决问题设计一个适用于遥感图像智能理解的新数据集,以满足通用性、理解复杂场景和推理能力等需求。
- 关键思路采用多模态大语言模型(MLLM)的新范式,即从学习领域模型(LaDM)的范式转变为学习预训练的通用基础模型,然后是自适应领域模型(LaGD)。设计了一个高质量、多样化、统一的多模态指令跟随数据集RS-GPT4V,通过GPT-4V和现有数据集,实现了通用性、理解复杂场景和推理能力。
- 其它亮点设计了一个多模态指令跟随数据集RS-GPT4V,可以描述细粒度信息,提供了推理能力。
- 最近的相关研究包括使用MLLM的其他图像理解任务,如图像描述、视觉问答等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流