Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation

2024年05月14日
  • 简介
    由于少样本分割的标签信息有限,因此仍然具有挑战性。大多数以前的方法依赖于从冻结的视觉编码器中提取高级特征图,以计算像素级相似度作为解码器的关键先验指导。然而,这种先验表示受到粗糙粒度和对新类别的泛化能力差的影响,因为这些高级特征图具有明显的类别偏见。在这项工作中,我们提出用视觉-文本对齐能力替换视觉先验表示,以捕获更可靠的指导并增强模型的泛化能力。具体而言,我们设计了两种无需训练的先验信息生成策略,试图利用对比语言-图像预训练模型(CLIP)的语义对齐能力来定位目标类别。此外,为了获得更准确的先验指导,我们建立了注意力图的高阶关系,并利用它来优化初始先验信息。在PASCAL-5{i}和COCO-20{i}数据集上的实验表明,我们的方法取得了明显的改进,并达到了新的最先进性能。
  • 图表
  • 解决问题
    研究如何解决few-shot segmentation中标签信息不足的问题,提高模型对新类别的泛化能力。
  • 关键思路
    利用Contrastive Language-Image Pre-training model (CLIP)的语义对齐能力替换视觉先验表示,通过两种无需训练的先验信息生成策略和高阶注意力图关系来获取更可靠的先验指导,提高模型性能。
  • 其它亮点
    论文提出的方法在PASCAL-5i和COCO-20i数据集上实现了新的最优性能,实验结果显示其优于目前现有的方法。此外,论文还使用了两种无需训练的先验信息生成策略和高阶注意力图关系来获取更可靠的先验指导,提高模型性能。
  • 相关研究
    相关研究包括:1. Few-shot segmentation with guided hallucination networks;2. Few-shot semantic segmentation with prototype learning;3. Few-shot learning for segmentation with grouped self-attention。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论