SCP-Diff: Photo-Realistic Semantic Image Synthesis with Spatial-Categorical Joint Prior

简介

语义图像合成（SIS）在传感器模拟方面表现出良好的前景。然而，目前在这个领域中基于GAN的最佳实践还没有达到期望的质量水平。随着潜在扩散模型在图像生成方面取得重大进展，我们被促使评估ControlNet，这是一种具有密集控制能力的显著方法。我们的调查发现了其结果的两个主要问题：大的语义区域内存在奇怪的子结构，内容与语义掩码不匹配。通过实证研究，我们确定了这些问题的原因是噪声训练数据分布与推理阶段应用的标准正常先验之间的不匹配。为了解决这一挑战，我们为SIS开发了特定的噪声先验，包括空间、分类和一种新颖的空间-分类联合先验用于推理。我们将这种方法称为SCP-Diff，取得了杰出的结果，在Cityscapes上达到了10.53的FID，在ADE20K上达到了12.66的FID。代码和模型可以通过项目页面访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决语义图像合成（SIS）中存在的问题，即GANs方法的质量不够理想。
关键思路

论文提出了一种名为SCP-Diff的方法，通过特定的噪声先验来解决训练数据分布与推理阶段标准正态先验之间的不匹配问题。
其它亮点

论文通过实证研究发现ControlNet方法的结果存在奇怪的子结构和内容与语义掩码不对齐的问题，提出了一种新的方法SCP-Diff，其在Cityscapes和ADE20K数据集上的表现优秀，FID分别为10.53和12.66。论文提供了代码和模型。
相关研究

在这个领域中，最近的相关研究包括：1. Semantic Image Synthesis with Spatially-Adaptive Normalization；2. High-Resolution Image Synthesis and Semantic Manipulation with Conditional Wasserstein GANs；3. Few-shot Image Generation with Guided Generative Adversarial Networks。

SCP-Diff: Photo-Realistic Semantic Image Synthesis with Spatial-Categorical Joint Prior

提问交流

提问交流