Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3796-3806) 2024
2024年06月17日
  • 简介
    弱监督语义分割在使用图像级标签方面取得了巨大的成就。最近的一些方法使用CLIP模型生成伪标签来训练单个分割模型,但没有尝试将CLIP模型作为主干直接对图像级标签进行分割。本文提出了一种基于CLIP的单阶段管道WeCLIP,用于弱监督语义分割。具体来说,冻结的CLIP模型被应用作为语义特征提取的主干,同时设计了一个新的解码器来解释提取的语义特征进行最终预测。同时,我们利用上述冻结的主干来生成伪标签,用于训练解码器。这些标签在训练过程中无法进行优化。然后,我们提出了一个改进模块(RFM)来动态地纠正它们。我们的架构强制要求所提出的解码器和RFM相互受益,以提高最终性能。广泛的实验表明,我们的方法在更少的训练成本下显著优于其他方法。此外,我们的WeCLIP在完全监督的设置中也取得了有希望的结果。代码可在https://github.com/zbf1991/WeCLIP上找到。
  • 图表
  • 解决问题
    本论文旨在解决弱监督语义分割问题,即通过图像级标签进行语义分割的问题。同时,论文还试图探索使用CLIP模型作为骨干网络直接对图像进行分割的可能性。
  • 关键思路
    论文提出了一种基于CLIP模型的单阶段弱监督语义分割方法。该方法使用冻结的CLIP模型作为骨干网络进行语义特征提取,并设计了一个新的解码器来解释提取的语义特征进行最终预测。同时,利用上述冻结的骨干网络生成伪标签来训练解码器,并使用一种新的模块进行动态修正。该架构使得解码器和修正模块相互促进,提高了最终性能。
  • 其它亮点
    论文通过实验验证了该方法在弱监督语义分割任务上的优越性,同时还在全监督设置下取得了不错的结果。论文代码已经开源,可供其他研究者使用。值得进一步深入研究的是,该方法能否在其他语义分割任务中取得更好的性能。
  • 相关研究
    在最近的相关研究中,一些学者也使用了CLIP模型进行图像分割,但是这些方法都是基于两阶段的框架,即首先使用CLIP模型生成伪标签,然后再使用这些标签进行分割训练。与之不同的是,本论文提出了一种单阶段的方法,可以直接使用CLIP模型进行语义分割。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论