Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification

2024年03月13日
  • 简介
    本文研究了利用大型预训练视觉-语言模型(VLMs)的潜力来提高未知船舶类别的分类准确性,这在由于成本或隐私限制而受到数据限制的情况下具有相当重要的意义。直接微调VLMs以进行细粒度遥感船舶分类通常会遇到过度拟合已知类别的挑战,导致对未知类别的泛化性能不佳,这凸显了区分复杂背景和捕捉独特船舶特征的困难。为了解决这些问题,本文引入了一种新颖的提示微调技术,采用分层、多粒度提示设计。我们的方法通过偏置项将遥感船舶先验知识集成到一个小型可训练网络中进行学习。这种策略提高了模型的泛化能力,同时改善了其识别复杂背景和学习区分船舶特征的能力。此外,我们通过引入一个全面的数据集FGSCM-52,为较少见的船舶类别提供了更广泛的数据和详细的注释,从而为该领域做出了贡献。广泛的实验评估表明,我们提出的方法优于当前最先进的技术。源代码将公开发布。
  • 图表
  • 解决问题
    本文旨在通过利用大型预训练视觉-语言模型(VLM)的潜力,提高遥感图像中船只细粒度分类(RS-FGSC)的准确性,尤其是对于未见类别的情况下。现有的标注数据受限,传统的监督分类方法效果受限。
  • 关键思路
    本文提出了一种新颖的提示调整技术,采用分层、多粒度提示设计。该方法通过从一个小型可训练网络中学习的偏差项,将遥感船只先验知识集成到模型中。这种策略提高了模型的泛化能力,同时改善了其区分复杂背景和学习有区别的船只特征的能力。
  • 其它亮点
    本文引入了一个全面的数据集FGSCM-52,扩展了现有数据集,提供了更广泛的数据和对不常见船只类别的详细注释。实验结果表明,我们的方法优于当前最先进的技术。本文的代码将公开。
  • 相关研究
    最近的相关研究包括使用VLM进行图像分类的研究,以及利用遥感图像进行船只分类的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论