A Study of Test-time Contrastive Concepts for Open-world, Open-vocabulary Semantic Segmentation

2024年07月06日
  • 简介
    最近,预训练的VLMs通过大量的图像-文本配对进行训练,使两种模态相互对齐,为开放词汇语义分割打开了道路。给定任意一组文本查询,图像区域会被分配到在特征空间中最接近的查询中。然而,通常的设置期望用户列出可能出现在图像中的所有视觉概念,通常是基准数据集的所有类别,它们相互作为负面。在这里,我们考虑更具挑战性的情况,即在给定文本提示的情况下,仅仅分割一个概念而没有其他信息。为了取得良好的结果,除了与通用的“背景”文本进行对比之外,我们研究了不同的方式来生成特定于查询的测试时对比文本概念,这些概念利用了VLM训练集中的文本分布或精心制作的LLM提示。我们使用一个新的特定度量来展示我们的方法的相关性。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决单一概念语义分割的问题,即在给定文本提示的情况下,只分割出与文本提示相关的概念,而不需要列出所有可能出现的视觉概念。
  • 关键思路
    本文通过生成与文本提示相关的对比文本概念,利用在大量图像文本对上训练的VLM模型进行单一概念语义分割。同时,本文提出了一种新的度量标准来评估模型性能。
  • 其它亮点
    本文的实验结果表明,生成的对比文本概念对于单一概念语义分割非常重要。此外,本文还研究了两种生成对比文本概念的方法,并且提出了一种新的度量标准来评估模型性能。本文使用了开源的数据集,并且提供了源代码。
  • 相关研究
    最近的相关研究包括:'Learning to Segment Every Thing','Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问