EarthMarker: A Visual Prompt Learning Framework for Region-level and Point-level Remote Sensing Imagery Comprehension

简介

近年来，自然图像领域的视觉提示技术的进展使得用户可以通过各种视觉标记（如框、点和自由形状）与人工智能工具进行交互。然而，由于自然图像和遥感图像之间存在显著差异，现有的视觉提示模型在遥感场景中面临着挑战。此外，遥感MLLM主要关注解释图像级别的遥感数据，并仅支持与语言指令的交互，限制了在现实世界中的灵活应用。为了解决这些限制，提出了一种新的视觉提示模型EarthMarker，它在图像级、区域级和点级遥感图像解释方面表现出色。具体而言，将视觉提示与图像和文本指令输入到大型语言模型（LLM）中，使模型适应特定的预测和任务。随后，引入共享视觉编码方法，以统一地精炼多尺度图像特征和视觉提示信息。此外，为了赋予EarthMarker多样化的多粒度视觉感知能力，开发了跨域分阶段学习策略，并通过利用自然和遥感领域特定的知识轻量级地优化不相交的参数。此外，为了解决遥感视觉提示数据的缺乏，构建了一个名为RSVP的数据集，其中包含多模态的细粒度视觉提示指令。进行了大量实验，证明了所提出的EarthMarker在视觉提示学习框架下的多粒度遥感图像解释方面具有竞争力，代表了重大进展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决现有视觉提示模型在遥感图像领域的应用挑战，提出一种新的视觉提示模型，并构建了一个名为RSVP的数据集。
关键思路

本文提出的EarthMarker模型通过视觉提示、共享视觉编码和跨域分阶段学习等方法，实现了遥感图像的多粒度解释，相比现有研究具有新意。
其它亮点

本文构建了RSVP数据集，提出了EarthMarker模型，实验结果表明其性能优越。同时，本文提出的跨域分阶段学习方法可以为其他领域的研究提供借鉴。
相关研究

近期相关研究包括：1. 'Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art' 2. 'A Review of Deep Learning in the Era of Remote Sensing: Opportunities and Challenges'

EarthMarker: A Visual Prompt Learning Framework for Region-level and Point-level Remote Sensing Imagery Comprehension

提问交流

提问交流