Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation

2024年04月18日
  • 简介
    本文介绍了一种创新的框架,名为Point PrompTing(PPT),结合了多源课程学习策略来解决弱监督图像分割(RIS)中的挑战。RIS旨在通过相应的自然语言表达式精确地分割图像中的指代物,但需要昂贵的掩码注释。因此,弱监督RIS通过学习图像-文本对来学习像素级语义,这对于分割细粒度掩码是具有挑战性的。提高分割精度的自然方法是使用图像分割基础模型SAM来增强弱监督RIS。然而,我们观察到简单地集成SAM的效果有限,甚至可能由于不可避免的噪声问题和过度关注对象部分而导致性能下降。因此,本文提出了一种创新的框架PPT,结合了所提出的多源课程学习策略,来解决这些挑战。具体来说,PPT的核心是一个点生成器,不仅利用CLIP的文本-图像对齐能力和SAM的强大掩码生成能力,还生成负面点提示来有效地解决噪声和过度关注问题。此外,我们引入了一种以物体为中心的图像课程学习策略,帮助PPT逐渐从简单而精确的语义对齐学习到更复杂的RIS。实验证明,我们的PPT在RefCOCO、RefCOCO+和G-Ref上的mIoU分别提高了11.34%、14.14%和6.97%,显著且一致地优于先前的弱监督技术。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决通过自然语言表达语句来精确分割图像中指代物的问题,但需要依赖昂贵的掩码注释。本文提出了一种创新的框架Point PrompTing(PPT),结合多源课程学习策略来解决这些挑战。
  • 关键思路
    PPT的核心是一个点生成器,它不仅利用了CLIP的文本-图像对齐能力和SAM强大的掩码生成能力,还生成负面点提示以有效地处理噪声和过度关注问题。此外,引入了以物体为中心的图像的课程学习策略,帮助PPT逐步从简单而精确的语义对齐学习到更复杂的RIS。
  • 其它亮点
    本文的亮点包括:使用了创新的PPT框架,结合多源课程学习策略,显著提高了弱监督图像分割的性能;在RefCOCO,RefCOCO +和G-Ref上,mIoU分别提高了11.34%,14.14%和6.97%;在实验中使用了哪些数据集,但未提及是否有开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《End-to-End Object Detection with Transformers》、《Learning to Segment via Cut-and-Paste》、《Weakly Supervised Object Detection via Background Purification》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问