DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition

2024年06月12日
  • 简介
    本文解决了逼真图像合成中合理物体放置的难题。我们提出了DiffPop框架,这是第一个利用可信度引导的去噪扩散概率模型来学习多个物体之间的比例和空间关系以及相应的场景图像的框架。首先,我们训练一个未引导的扩散模型,以自我监督的方式直接学习物体放置参数。然后,我们开发了一个人机交互的流程,利用扩散生成的复合图像上的人工标记来为结构可信度分类器的训练提供弱监督。分类器进一步用于引导扩散采样过程,以生成合理的物体放置。实验结果验证了我们的方法在新的Cityscapes-OP数据集和公共OPA数据集上生成合理和多样的复合图像的优越性,并展示了它在数据增强和多物体放置任务等应用中的潜力。我们的数据集和代码将会发布。
  • 图表
  • 解决问题
    本论文解决的问题是在合成图像过程中,如何实现合理的物体摆放,以及如何训练模型学习物体的规模和空间关系。这是一个新问题。
  • 关键思路
    本论文提出了 DiffPop 框架,利用可信度引导的去噪扩散概率模型来学习多个物体之间的规模和空间关系,以及相应场景图像。首先,使用无指导扩散模型在自我监督的情况下直接学习物体摆放参数。然后,开发了一个人机交互的流水线,利用扩散生成的合成图像上的人工标注提供弱监督来训练结构可信度分类器。分类器进一步用于引导扩散采样过程以生成合理的物体摆放。本论文的关键思路是结合无监督学习和人机交互来实现物体摆放的可信度引导。
  • 其它亮点
    本论文的亮点包括:在新的 Cityscapes-OP 数据集和公共 OPA 数据集上验证了本方法在生成合理和多样化的合成图像方面的优越性;证明了本方法在数据增强和多物体摆放任务等应用中的潜力;公开了数据集和代码。
  • 相关研究
    最近的相关研究包括:"Unsupervised Learning of Object Keypoints for Perception and Control" 和 "Generative Modeling of Multi-Object Scenes with Attention-Based Compound Object Representations"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论