A Study of Test-time Contrastive Concepts for Open-world, Open-vocabulary Semantic Segmentation

简介

最近，预训练的VLMs通过大量的图像-文本配对进行训练，使两种模态相互对齐，为开放词汇语义分割打开了道路。给定任意一组文本查询，图像区域会被分配到在特征空间中最接近的查询中。然而，通常的设置期望用户列出可能出现在图像中的所有视觉概念，通常是基准数据集的所有类别，它们相互作为负面。在这里，我们考虑更具挑战性的情况，即在给定文本提示的情况下，仅仅分割一个概念而没有其他信息。为了取得良好的结果，除了与通用的“背景”文本进行对比之外，我们研究了不同的方式来生成特定于查询的测试时对比文本概念，这些概念利用了VLM训练集中的文本分布或精心制作的LLM提示。我们使用一个新的特定度量来展示我们的方法的相关性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决单一概念语义分割的问题，即在给定文本提示的情况下，只分割出与文本提示相关的概念，而不需要列出所有可能出现的视觉概念。
关键思路

本文通过生成与文本提示相关的对比文本概念，利用在大量图像文本对上训练的VLM模型进行单一概念语义分割。同时，本文提出了一种新的度量标准来评估模型性能。
其它亮点

本文的实验结果表明，生成的对比文本概念对于单一概念语义分割非常重要。此外，本文还研究了两种生成对比文本概念的方法，并且提出了一种新的度量标准来评估模型性能。本文使用了开源的数据集，并且提供了源代码。
相关研究

最近的相关研究包括：'Learning to Segment Every Thing'，'Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs'等。

A Study of Test-time Contrastive Concepts for Open-world, Open-vocabulary Semantic Segmentation

提问交流

提问交流