- 简介扩散模型为基于文本的图像编辑框架开辟了道路。然而,这些模型通常建立在扩散反向过程的多步骤性质上,将它们适应于蒸馏的快速抽样方法却被证明是非常具有挑战性的。在这里,我们关注一种流行的基于文本的编辑框架——“编辑友好型”DDPM噪声反演方法。我们分析了它在快速抽样方法中的应用,并将其失败归类为两类:视觉伪影和编辑强度不足。我们将伪影追溯到反演噪声和预期噪声时间表之间不匹配的噪声统计数据,并建议一种偏移的噪声时间表来校正这种偏移。为了增强编辑强度,我们提出了一种伪引导方法,可以有效地增加编辑的幅度而不会引入新的伪影。总之,我们的方法使得基于文本的图像编辑只需要三个扩散步骤,同时为流行的基于文本的编辑方法背后的机制提供了新的见解。
- 图表
- 解决问题本文旨在解决快速采样方法下基于文本的图像编辑框架的问题,探究DDPM噪声反演方法在快速采样方法下的应用,并将其失败归类为视觉伪影和编辑强度不足两类。
- 关键思路本文提出了一种改进的噪声调度方法,以解决反演噪声与期望噪声调度之间的不匹配问题,并提出了一种伪指导方法,以提高编辑强度。
- 其它亮点本文提出的方法可以使用仅三个扩散步骤进行基于文本的图像编辑,并提供了有关流行的基于文本的编辑方法机制的新见解。
- 最近的相关研究包括:《Improved Techniques for Training Single-Image GANs》、《Generative Adversarial Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢