FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models

简介

基础模型在处理许多领域和任务方面表现出了前所未有的能力。CLIP等模型目前广泛用于桥接跨模态表示，而文本到图像扩散模型在逼真图像生成方面可谓是领先模型。图像生成模型是在大规模数据集上训练的，这些数据集为它们提供了强大的内部空间表示。在本研究中，我们探讨了这些表示的潜在益处，超越了图像生成，特别是对于密集视觉预测任务。我们专注于图像分割任务，传统上是通过在具有像素级注释的封闭词汇数据集上训练模型来解决的。为了避免注释成本或训练大型扩散模型，我们将设置限制为零样本且无需训练。简而言之，我们的流水线利用不同的、相对较小的开源基础模型实现零样本开放词汇分割。流水线如下：图像被传递到字幕模型（即BLIP）和扩散模型（即稳定扩散模型）以生成文本描述和视觉表示，分别。特征被聚类和二值化以获得每个对象的类不可知掩模。然后使用CLIP模型将这些掩模映射到文本类别，以支持开放词汇。最后，我们添加了一个细化步骤，以获得更精确的分割掩模。我们的方法（称为FreeSeg-Diff）不依赖任何训练，在Pascal VOC和COCO数据集上均优于许多基于训练的方法。此外，我们展示了与最近的弱监督分割方法相比非常有竞争力的结果。我们提供了全面的实验，展示了扩散模型特征相对于其他预训练模型的优越性。项目页面：https://bcorrad.github.io/freesegdiff/
图表
解决问题

论文旨在探索使用预训练模型的内部空间表示来解决图像分割任务，避免昂贵的注释成本和大规模训练模型的需求。
关键思路

论文提出了一种零训练和开放词汇的图像分割方法，使用不同的预训练模型生成图像的文本描述和视觉表示，并使用聚类和二值化技术获得每个对象的类别无关掩码。然后使用CLIP模型将掩码映射到文本类别，并添加细化步骤以获得更精确的分割掩码。
其它亮点

论文的方法（FreeSeg-Diff）在Pascal VOC和COCO数据集上的表现优于许多基于训练的方法，并且与最近的弱监督分割方法相比表现非常有竞争力。实验结果表明，扩散模型特征优于其他预训练模型特征。论文提供了开源代码和项目页面。
相关研究

最近的相关研究包括使用预训练模型进行图像分割，如DETR、CLIP和DALL-E，以及使用弱监督方法进行图像分割，如WSL、SemiSeg和ScribbleSup。

FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models

评论