FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

2024年12月11日
  • 简介
    使用预训练的文本到图像(T2I)扩散/流模型编辑真实图像通常涉及将图像反转为其对应的噪声图。然而,仅靠反转通常不足以获得满意的结果,因此许多方法还会干预采样过程。这些方法虽然取得了更好的结果,但无法在不同的模型架构之间无缝迁移。在这里,我们引入了FlowEdit,这是一种针对预训练T2I流模型的基于文本的编辑方法,它无需反转、无需优化且与模型无关。我们的方法构建了一个直接映射源分布和目标分布(对应于源文本提示和目标文本提示)的常微分方程(ODE),其传输成本比反转方法更低。这使得我们的方法达到了最先进的效果,我们在Stable Diffusion 3和FLUX上进行了演示。代码和示例可在项目网页上获取。
  • 图表
  • 解决问题
    该论文旨在解决使用预训练文本到图像(T2I)扩散或流模型编辑真实图像时存在的不足,特别是针对现有的图像反转方法通常无法单独实现令人满意的结果这一问题。这并不是一个全新的问题,但提出了一种新的解决方案来改进现有的编辑方法。
  • 关键思路
    论文的关键思路是引入了一种名为FlowEdit的新方法,该方法无需进行图像反转或优化过程,而是直接构建了一个常微分方程(ODE),用以在源分布和目标分布之间建立映射关系。这种方法不仅降低了传输成本,而且具有模型无关性,能够无缝应用于不同的T2I模型架构。这与现有方法主要依赖于图像反转和采样过程干预不同,提供了一种更高效且通用的解决方案。
  • 其它亮点
    论文通过实验展示了FlowEdit在Stable Diffusion 3和FLUX等模型上的优越性能,证明了其在文本引导的图像编辑任务中的有效性。此外,作者还提供了项目网页,其中包含代码和示例,方便其他研究人员复现和进一步探索。未来的研究可以关注如何将FlowEdit扩展到更多类型的T2I模型,并探索其在其他图像生成任务中的应用。
  • 相关研究
    近期在这个领域内的相关研究包括: 1.《Textual Inversion for Image Editing with Pre-trained Text-to-Image Models》—— 提出了一种基于文本反转的方法来编辑图像。 2.《Diffusion Models Beat GANs on Image Synthesis》—— 比较了扩散模型和GAN在图像生成任务中的表现。 3.《Latent Diffusion Models for Text-to-Image Generation》—— 探讨了潜在扩散模型在文本到图像生成中的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论