Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

简介

本文探讨了基于文本监督的语义分割，旨在通过仅使用图像-文本对而无需密集注释来学习能够分割图像内任意视觉概念的模型。现有方法已经证明，对图像-文本对进行对比学习可以有效地将视觉分割与文本意义对齐。我们注意到文本对齐和语义分割之间存在差异：一个文本通常由多个语义概念组成，而语义分割则致力于创建语义上同质的分割。为了解决这个问题，我们提出了一种新的框架，图像-文本共分解（CoDe），其中配对的图像和文本分别被联合分解为一组图像区域和一组单词片段，并开发了对比学习来强制实现区域-单词对齐。为了与视觉语言模型一起工作，我们提出了一种提示学习机制，用于导出额外的表示以突出感兴趣的图像或单词片段，从而可以从该片段提取更有效的特征。全面的实验结果表明，我们的方法在六个基准数据集上表现优于现有的基于文本监督的语义分割方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图通过使用仅有的图像-文本对而无需密集注释的方式，来学习分割图像中任意视觉概念的模型。
关键思路

提出了一种新的框架，Image-Text Co-Decomposition (CoDe)，将配对的图像和文本联合分解为一组图像区域和一组单词片段，并开发了对比学习来强制实现区域-单词对齐。此外，提出了一种提示学习机制，以从感兴趣的图像或单词片段中提取更有效的特征。
其它亮点

本文的方法在六个基准数据集上表现出色，相比现有的文本监督语义分割方法更优。实验结果显示，该方法能够有效地从图像和文本中学习语义概念。
相关研究

最近的相关研究主要集中在使用图像-文本对进行视觉推理和学习方面，如ViLBERT和VisualBERT等。

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

提问交流

提问交流