Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

向作者提问

NEW

简介

本文旨在进行多源遥感图像中的船只检测，然而由于不同的成像负载、船只外观的多样性以及鸟瞰视角下复杂的背景干扰等问题，难以建立一个统一的范式来实现多源船只检测。因此，本文提出了一种新颖的统一视觉语言模型 Popeye，考虑到大型语言模型具有强大的泛化能力。首先，为了弥合多源图像之间的解释差距，设计了一种新颖的图像-指令-答案方式，将各种船只检测方式（例如水平边界框（HBB）、定向边界框（OBB））集成到统一的标注范式中。然后，基于此，提出了一种跨模态图像解释方法，用于增强视觉和语言内容之间的交互理解能力，可以轻松地迁移到任何多源船只检测任务中。随后，针对客观领域差异，设计了一种知识适应机制，将自然场景中预训练的视觉语言知识适应到 RS 领域，用于多源船只检测。此外，还将分割任何模型（SAM）无缝集成到提出的 Popeye 中，以实现像素级船只分割，无需额外的训练成本。最后，在新构建的指令数据集 MMShip 上进行了广泛的实验，结果表明，所提出的 Popeye 在零样本多源船只检测方面优于当前的专家、开放词汇量和其他视觉语言模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决多源遥感图像中的船只检测问题，由于不同的成像负载、船只的各种外观以及复杂的背景干扰，很难建立一个统一的范式来实现多源船只检测。因此，本文提出了一种新的统一的视觉语言模型Popeye，以强大的泛化能力为基础。
关键思路

本文的关键思路是设计了一种图像-指令-答案方式，将各种船只检测方式（如水平边界框（HBB）、定向边界框（OBB））集成到统一的标记范式中，然后开发了一种跨模态图像解释方法，以增强视觉和语言内容之间的交互理解能力，从而轻松迁移到任何多源船只检测任务。此外，还设计了一种知识适应机制，将自然场景中预训练的视觉-语言知识适应到RS领域，以实现多源船只检测。
其它亮点

本文的亮点包括：1.设计了一种图像-指令-答案方式，将各种船只检测方式集成到统一的标记范式中；2.开发了一种跨模态图像解释方法，以增强视觉和语言内容之间的交互理解能力；3.设计了一种知识适应机制，将自然场景中预训练的视觉-语言知识适应到RS领域，以实现多源船只检测；4.将SAM模型无缝集成到Popeye中，以实现像素级船只分割；5.在新构建的指令数据集MMShip上进行了广泛的实验，并证明了Popeye在零样本多源船只检测方面优于当前的专家、开放词汇和其他视觉语言模型。
相关研究

最近在这个领域中，还有一些相关的研究，如：1.《A Unified Multi-source and Multi-scale Framework for Ship Detection》；2.《Ship Detection in Optical Remote Sensing Images Based on Multi-scale Convolutional Neural Networks and Image Enhancement Techniques》；3.《Ship Detection in High Resolution Remote Sensing Images Based on Multi-scale Rotation Dense Feature Pyramid Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问