Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model

2024年07月07日
  • 简介
    最近,扩散模型在视觉理解方面展示了越来越强的能力。通过利用基于提示的学习来构建句子,这些模型在分类和视觉定位任务方面表现出了熟练的能力。然而,现有方法主要展示了它们在句子级别定位方面的能力,而对于利用上下文信息进行短语级别理解的潜力则大多未被探索。在本文中,我们利用全景叙事定位(PNG)作为代理任务,进一步研究这种能力。PNG旨在分割给定叙述文本中多个名词短语提到的对象实例。具体而言,我们引入了DiffPNG框架,这是一种简单而有效的方法,完全利用扩散的架构进行分割,将过程分解为一系列定位、分割和细化步骤。该框架使用交叉注意力机制首先识别锚点,随后使用自注意力进行分割,以实现零样本PNG。此外,我们引入了基于SAM的细化模块,以提高分割掩模的质量。我们在PNG数据集上进行了广泛的实验,证明DiffPNG在零样本PNG任务设置中取得了强大的性能,从而确切地证明了扩散模型在上下文感知的短语级别理解方面的能力。源代码可在\url{https://github.com/nini0919/DiffPNG}上找到。
  • 图表
  • 解决问题
    论文旨在探索扩展扩散模型在视觉理解中的潜力,特别是在使用上下文信息进行短语级别理解方面的能力。
  • 关键思路
    论文提出了DiffPNG框架,利用扩散模型的架构来实现短语级别的Panoptic Narrative Grounding(PNG)任务。该框架将过程分解为定位、分割和细化步骤,并使用交叉注意机制和自注意力机制实现零样本PNG。
  • 其它亮点
    论文在PNG数据集上进行了广泛实验,证明了DiffPNG在零样本PNG任务设置下的强大性能。此外,论文还介绍了基于SAM的细化模块,以提高分割掩模的质量。代码已经开源。
  • 相关研究
    最近的相关研究包括:《Prompting Visual Understanding with Denoising Diffusion Probabilistic Models》、《Contextualized Panoptic Segmentation》、《End-to-End Object Detection with Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论