Open-Vocabulary Semantic Segmentation with Image Embedding Balancing

2024年06月14日
  • 简介
    开放词汇语义分割是一项具有挑战性的任务,需要模型输出超出封闭词汇表的图像语义掩模。虽然已经做出了许多努力,利用强大的CLIP模型来完成这项任务,但由于训练和新类之间的语义信息存在自然差距,它们仍然很容易过度拟合训练类。为了克服这个挑战,我们提出了一个新颖的开放词汇语义分割框架,称为EBSeg,它包括一个自适应平衡解码器(AdaB解码器)和一个语义结构一致性损失(SSC损失)。AdaB解码器的设计是为了为训练和新类生成不同的图像嵌入。随后,这两种类型的嵌入被自适应平衡,以充分利用它们识别训练类和新类的泛化能力。为了从CLIP中学习一致的语义结构,SSC损失将图像特征空间中的类间亲和力与CLIP文本特征空间中的类间亲和力对齐,从而提高我们模型的泛化能力。此外,我们采用了一个冻结的SAM图像编码器,来补充由于CLIP特征在低分辨率训练图像和图像级监督中缺乏的空间信息。在各种基准测试中进行的广泛实验表明,所提出的EBSeg优于现有的最先进方法。我们的代码和训练模型将在这里提供:https://github.com/slonetime/EBSeg。
  • 图表
  • 解决问题
    本文试图解决开放词汇语义分割中的过拟合问题,提高模型对新类别的泛化能力。
  • 关键思路
    本文提出了一种名为EBSeg的框架,其中包括自适应平衡解码器(AdaB Decoder)和语义结构一致性损失(SSC Loss),用于生成训练和新类别的不同图像嵌入,从而使模型能够充分利用其识别训练类别和泛化新类别的能力。
  • 其它亮点
    本文使用了冻结的SAM图像编码器来补充CLIP特征中缺少的空间信息,实验证明EBSeg在各种基准测试中均优于现有方法。作者还开源了代码和经过训练的模型。
  • 相关研究
    最近的相关研究包括:《CLIP: Connecting Text and Images》、《Open-Vocabulary Semantic Segmentation with ECCV 2020》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论