基础模型在处理许多领域和任务方面表现出了前所未有的能力。CLIP等模型目前广泛用于桥接跨模态表示,而文本到图像扩散模型在逼真图像生成方面可谓是领先模型。图像生成模型是在大规模数据集上训练的,这些数据集为它们提供了强大的内部空间表示。在本研究中,我们探讨了这些表示的潜在益处,超越了图像生成,特别是对于密集视觉预测任务。我们专注于图像分割任务,传统上是通过在具有像素级注释的封闭词汇数据集上训练模型来解决的。为了避免注释成本或训练大型扩散模型,我们将设置限制为零样本且无需训练。简而言之,我们的流水线利用不同的、相对较小的开源基础模型实现零样本开放词汇分割。流水线如下:图像被传递到字幕模型(即BLIP)和扩散模型(即稳定扩散模型)以生成文本描述和视觉表示,分别。特征被聚类和二值化以获得每个对象的类不可知掩模。然后使用CLIP模型将这些掩模映射到文本类别,以支持开放词汇。最后,我们添加了一个细化步骤,以获得更精确的分割掩模。我们的方法(称为FreeSeg-Diff)不依赖任何训练,在Pascal VOC和COCO数据集上均优于许多基于训练的方法。此外,我们展示了与最近的弱监督分割方法相比非常有竞争力的结果。我们提供了全面的实验,展示了扩散模型特征相对于其他预训练模型的优越性。项目页面:https://bcorrad.github.io/freesegdiff/
提问交流