Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion

J Tian, L Aggarwal, A Colaco, Z Kira, M Gonzalez-Franco
[Georgia Institute of Technology & Google]

扩散、关注和分割:基于Stable Diffusion的无监督零样本分割

  • 提出DiffSeg,一种无监督零样本分割方法,仅使用预训练的stable diffusion模型,不需要任何训练数据或其他外部信息。

  • 利用stable diffusion模型中的自注意力层,其中包含以4D注意力张量的形式存在的内在对象分组信息。

  • 观察到注意力张量中存在两个属性:Intra-Attention Similarity(注意力图中的位置倾向于对属于同一对象的位置激活)和Inter-Attention Similarity(属于同一对象的不同位置对应的注意力图倾向于相似)。

  • DiffSeg由3个主要步骤组成:注意力聚合、迭代注意力合并和非最大抑制,它聚合多分辨率的注意力图,基于KL散度迭代合并注意力图,并将合并后的图转换为分割掩码。

  • 在COCO-Stuff和Cityscapes上实现了无监督零样本分割的最新水准效果,明显优于之前的工作。

  • 自注意力层在没有任何分割标签的无监督条件下训练,但包含如此强大的对象分组信息,可以提取出来进行高质量分割。

  • 限制包括在Cityscapes等专门数据集上的小目标性能较差,依赖预训练模型的泛化能力,以及计算复杂度。

动机:解决无监督和零样本分割的挑战,以便在没有任何标注或先验知识的情况下对任何图像进行分割。
方法:提出一种基于stable diffusion模型的后处理方法,称为DiffSeg。该方法利用扩散模型生成的自注意力张量来生成分割掩码。DiffSeg包括三个主要组件:注意力聚合、迭代注意力合并和非最大抑制。

优势:DiffSeg不需要任何训练或语言依赖,能为任何图像提取高质量的分割掩码。在COCO-Stuff-27数据集上,DiffSeg在像素准确度和平均IoU方面超过了之前的无监督零样本方法。

一句话总结: 提出一种无监督和零样本的分割方法DiffSeg,利用稳定扩散模型中的自注意力张量生成高质量的分割掩码。

https://arxiv.org/abs/2308.12469 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除