Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach

2024年04月17日
  • 简介
    注意力机制的Transformer模型的出现,由于其出色的泛化和迁移性能,在各种任务中得到了广泛应用。最近的研究表明,这种模型在适当提示的情况下,对于少样本推理非常出色。然而,这种技术在像语义分割这样的密集预测任务中尚未得到充分探索。在这项工作中,我们检验了使用学习的视觉提示来提示Transformer解码器在广义少样本分割(GFSS)任务中的有效性。我们的目标不仅是在有限的新类别示例上实现强大的性能,还要保持基类别的性能。我们提出了一种使用有限示例学习视觉提示的方法。这些学习的视觉提示用于提示多尺度Transformer解码器,以促进准确的密集预测。此外,我们引入了一种单向因果关注机制,用于新提示(使用有限示例学习)和基础提示(使用丰富数据学习)之间。该机制丰富了新提示,而不会降低基类别的性能。总的来说,这种提示形式帮助我们在两个不同的基准数据集(COCO-$20^i$和Pascal-$5^i$)上实现了GFSS的最新性能,而无需进行测试时优化(或传导)。此外,可以利用未标记的测试数据进行测试时间优化,以改进提示,我们称之为传导提示调整。
  • 图表
  • 解决问题
    本文旨在探究使用学习到的视觉提示来促进广义少样本分割任务的性能,并在保持基础类别性能的同时,在有限的示例中对新类别进行准确的密集预测。
  • 关键思路
    本文提出了一种使用学习到的视觉提示来促进广义少样本分割任务的性能的方法。这种方法使用有限的示例来学习视觉提示,并将这些提示用于提示多尺度变压器解码器,以促进准确的密集预测。同时,还引入了一种单向因果注意机制,用于丰富新提示而不降低基础类别性能。
  • 其它亮点
    本文的方法在两个基准数据集(COCO-$20^i$和Pascal-$5^i$)上实现了最先进的广义少样本分割性能,无需测试时间优化(或传导)。此外,可以使用测试时间优化来使用未标记的测试数据来改善提示,这被称为传导提示调整。
  • 相关研究
    近期的相关研究包括:《Few-shot Image Recognition with Knowledge Transfer》、《Meta-learning with differentiable closed-form solvers》、《Learning to learn without forgetting by maximizing transfer and minimizing interference》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论