Patched Denoising Diffusion Models For High-Resolution Image Synthesis
解决问题:本论文旨在解决高分辨率图像生成中的噪声问题,并且提出了一种新的 Patch-DM 算法。该算法基于小尺寸图像块进行训练,可以生成高质量的大尺寸图像。这是一个新的问题,因为高分辨率图像的生成一直是人工智能领域的热门研究方向。
关键思路:Patch-DM 算法的关键思路是设计了一种新的特征拼贴策略,避免了合成大尺寸图像时的边界伪影。该算法通过将相邻图像块的部分特征进行裁剪和组合,预测移位图像块的特征,从而无缝生成整个图像。相比于当前领域的研究,Patch-DM 算法的思路具有新意。
其他亮点:本论文使用了作者新收集的自然图像数据集,以及标准基准数据集进行实验,证明了 Patch-DM 算法的有效性。该算法还可以降低内存复杂度,并且在四个数据集上均取得了最先进的 FID 分数。然而,该论文没有提供开源代码。该算法的新特征拼贴策略和内存优化值得进一步研究。
关于作者:本论文的主要作者是 Zheng Ding、Mengqi Zhang、Jiajun Wu 和 Zhuowen Tu。他们分别来自加州大学洛杉矶分校和加州大学圣迭戈分校。Zheng Ding 在图像生成和计算机视觉领域有多篇代表作,包括 "Deep Generative Models for Single Image Super-Resolution" 和 "Context-Aware Single-Image Super-Resolution with Receptive Field Regularization". Mengqi Zhang 的代表作包括 "Self-supervised Learning for Fine-grained Object Recognition" 和 "Unsupervised Discovery of Object Landmarks as Structural Representations". Jiajun Wu 的代表作包括 "Neural Scene Graphs for Generating 3D Scenes from Natural Language Descriptions" 和 "Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling". Zhuowen Tu 的代表作包括 "Auto-Encoding Twin-Bottleneck GANs" 和 "Joint Unsupervised Learning of Deep Representations and Image Clusters".
相关研究:近期其他相关的研究包括 "High-Resolution Image Synthesis with Diffusion Probabilistic Models" (by Nalisnick et al., OpenAI) 和 "Large Scale GAN Training for High Fidelity Natural Image Synthesis" (by Brock et al., UC Berkeley).
论文摘要:我们提出了一种有效的去噪扩散模型,用于生成高分辨率图像(例如1024×512),其是在小尺寸图像块(例如64×64)上进行训练的。我们将我们的算法命名为Patch-DM,其中设计了一种新的特征拼贴策略,以避免在合成大尺寸图像时出现边界伪影。特征拼贴系统地裁剪和组合相邻块的部分特征,以预测移位图像块的特征,由于在块特征空间中的重叠,使整个图像无缝生成。Patch-DM在我们新收集的自然图像数据集(1024×512)以及较小尺寸(256×256)的标准基准测试(包括LSUN-Bedroom、LSUN-Church和FFHQ)上产生了高质量的图像合成结果。我们将我们的方法与以前的基于块的生成方法进行比较,并在所有四个数据集上实现了最先进的FID分数。此外,Patch-DM还降低了与经典扩散模型相比的内存复杂性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢