- 简介潜在扩散模型(LDMs)以其生成过程的不稳定性而闻名,即使是输入噪声中的微小扰动或偏移也可能导致输出结果显著不同。这阻碍了它们在需要一致结果的应用中的应用。在这项工作中,我们重新设计了LDMs以增强一致性,使其具备平移等变性。虽然引入抗锯齿操作可以在一定程度上改善平移等变性,但由于LDMs的独特挑战,仍然存在显著的锯齿效应和不一致性,这些挑战包括:1)VAE训练和多次U-Net推理过程中锯齿效应的放大;2)自注意力模块本身缺乏平移等变性。为了解决这些问题,我们重新设计了注意力模块以实现平移等变性,并提出了一种等变性损失,该损失能够有效抑制连续域中特征的频率带宽。由此产生的无锯齿LDM(AF-LDM)实现了强大的平移等变性,并且对不规则变形也具有鲁棒性。大量实验表明,与传统的LDM相比,AF-LDM在各种应用中(包括视频编辑和图像到图像的转换)能够产生显著更一致的结果。代码可在以下链接获取:https://github.com/SingleZombie/AFLDM
- 图表
- 解决问题论文试图解决Latent Diffusion Models (LDMs) 在生成过程中因输入噪声的小扰动而导致输出显著不同的问题,这在需要一致结果的应用中(如视频编辑和图像翻译)尤其重要。这是一个现有问题,但尚未有系统性解决方案。
- 关键思路论文通过重新设计LDM使其具备平移等变性(shift-equivariance),从而提高生成的一致性。关键思路包括:1) 重新设计注意力模块以实现平移等变性;2) 提出等变性损失来抑制特征的频率带宽;3) 针对VAE训练和U-Net推理中的混叠放大问题进行优化。这些方法共同构成了Alias-Free LDM (AF-LDM),有效提升了模型的一致性和鲁棒性。
- 其它亮点论文通过大量实验验证了AF-LDM在视频编辑和图像翻译等任务上的优越一致性表现,并提供了开源代码(https://github.com/SingleZombie/AFLDM)。此外,研究还展示了AF-LDM对不规则形变的鲁棒性,表明其具有广泛的实际应用潜力。未来可以进一步探索等变性在其他生成模型中的应用,以及如何结合更复杂的几何变换。
- 相关研究包括:1) 原始LDM及其改进版本的研究,如《High-Resolution Image Synthesis with Latent Diffusion Models》;2) 等变性网络的设计,如《Covariant Compositional Networks For Learning Graphs》;3) 混叠问题的处理,如《Anti-Aliasing Generative Adversarial Networks》;4) 注意力机制的改进,如《Shift-equivariant Attention for Spatially Structured Data》。这些研究为本论文提供了理论和技术基础。
沙发等你来抢
去评论
评论
沙发等你来抢