Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

2024年03月06日
  • 简介
    本文旨在进行多源遥感图像中的船只检测,然而由于不同的成像负载、船只外观的多样性以及鸟瞰视角下复杂的背景干扰等问题,难以建立一个统一的范式来实现多源船只检测。因此,本文提出了一种新颖的统一视觉语言模型 Popeye,考虑到大型语言模型具有强大的泛化能力。首先,为了弥合多源图像之间的解释差距,设计了一种新颖的图像-指令-答案方式,将各种船只检测方式(例如水平边界框(HBB)、定向边界框(OBB))集成到统一的标注范式中。然后,基于此,提出了一种跨模态图像解释方法,用于增强视觉和语言内容之间的交互理解能力,可以轻松地迁移到任何多源船只检测任务中。随后,针对客观领域差异,设计了一种知识适应机制,将自然场景中预训练的视觉语言知识适应到 RS 领域,用于多源船只检测。此外,还将分割任何模型(SAM)无缝集成到提出的 Popeye 中,以实现像素级船只分割,无需额外的训练成本。最后,在新构建的指令数据集 MMShip 上进行了广泛的实验,结果表明,所提出的 Popeye 在零样本多源船只检测方面优于当前的专家、开放词汇量和其他视觉语言模型。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决多源遥感图像中的船只检测问题,由于不同的成像负载、船只的各种外观以及复杂的背景干扰,很难建立一个统一的范式来实现多源船只检测。因此,本文提出了一种新的统一的视觉语言模型Popeye,以强大的泛化能力为基础。
  • 关键思路
    本文的关键思路是设计了一种图像-指令-答案方式,将各种船只检测方式(如水平边界框(HBB)、定向边界框(OBB))集成到统一的标记范式中,然后开发了一种跨模态图像解释方法,以增强视觉和语言内容之间的交互理解能力,从而轻松迁移到任何多源船只检测任务。此外,还设计了一种知识适应机制,将自然场景中预训练的视觉-语言知识适应到RS领域,以实现多源船只检测。
  • 其它亮点
    本文的亮点包括:1.设计了一种图像-指令-答案方式,将各种船只检测方式集成到统一的标记范式中;2.开发了一种跨模态图像解释方法,以增强视觉和语言内容之间的交互理解能力;3.设计了一种知识适应机制,将自然场景中预训练的视觉-语言知识适应到RS领域,以实现多源船只检测;4.将SAM模型无缝集成到Popeye中,以实现像素级船只分割;5.在新构建的指令数据集MMShip上进行了广泛的实验,并证明了Popeye在零样本多源船只检测方面优于当前的专家、开放词汇和其他视觉语言模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1.《A Unified Multi-source and Multi-scale Framework for Ship Detection》;2.《Ship Detection in Optical Remote Sensing Images Based on Multi-scale Convolutional Neural Networks and Image Enhancement Techniques》;3.《Ship Detection in High Resolution Remote Sensing Images Based on Multi-scale Rotation Dense Feature Pyramid Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问