Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

2024年06月20日
  • 简介
    扩散蒸馏代表了实现忠实的文本到图像生成的高度有前途的方向,但是尽管最近取得了成功,现有的蒸馏模型仍然不能提供完整的扩散能力,比如真实图像反演,这使得许多精确的图像操作方法成为可能。本研究旨在为蒸馏文本到图像扩散模型增加将真实图像有效编码到它们的潜在空间的能力。为此,我们引入了可逆一致性蒸馏(iCD),这是一个广义的一致性蒸馏框架,可以在仅3-4个推理步骤中促进高质量的图像合成和准确的图像编码。虽然文本到图像扩散模型的反演问题会因高无分类器指导比例而恶化,但我们注意到,动态指导显著减少重构误差,而不会明显降低生成性能。因此,我们证明了具有动态指导的iCD可以作为一种高效的零样本文本引导图像编辑工具,可以与更昂贵的最先进替代方案竞争。
  • 图表
  • 解决问题
    本论文旨在为文本到图像扩散模型提供实际的图像编码能力,以便进行准确的图像编辑和操作。
  • 关键思路
    本文提出了可逆一致性蒸馏(iCD)框架,通过动态指导来解决文本到图像扩散模型的反演问题,实现高质量的图像合成和准确的图像编码。
  • 其它亮点
    本文的亮点包括:1. 提出了iCD框架,实现了文本到图像扩散模型的反演和图像编码;2. 采用动态指导来降低重构误差;3. 实现了零样本文本引导图像编辑,与当前最先进的方法相比,具有更高的效率。
  • 相关研究
    在相关研究方面,最近的研究包括:1. 文本到图像生成模型;2. 图像编码和编辑方法;3. 可逆生成模型。相关论文包括《Generative Adversarial Text-to-Image Synthesis》、《Image Inpainting via Generative Multi-column Convolutional Neural Networks》和《Flow-based Generative Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论