- 简介扩散式文本到图像生成模型,例如“稳定扩散”(Stable Diffusion),已经在内容生成领域引起了革命性的变化,使得图像编辑和视频合成等领域取得了显著的进展。尽管这些模型具有强大的能力,但它们仍然存在局限性。合成与输入文本相符的图像仍然具有挑战性,需要多次运行并精心设计提示才能达到令人满意的结果。为了缓解这些限制,许多研究努力调整预训练的扩散模型(即UNet),利用各种技术进行微调。然而,在这些努力中,一个关键的问题——是否可能和可行地微调文本编码器以提高文本到图像扩散模型的性能——仍然基本未被探索。我们的研究结果表明,我们可以通过我们提出的微调方法TextCraftor,而不是用其他大型语言模型替换Stable Diffusion中使用的CLIP文本编码器,来增强它,从而在定量基准和人类评估中实现了显著的改进。有趣的是,我们的技术还通过不同奖励微调的不同文本编码器的插值来实现可控的图像生成。我们还证明,TextCraftor与UNet微调是正交的,并且可以结合使用以进一步提高生成质量。
- 图表
- 解决问题本文旨在探究fine-tune文本编码器是否能够提高文本到图像扩散模型的性能,以及如何通过fine-tune实现可控图像生成。
- 关键思路本文提出了一种名为TextCraftor的fine-tune方法,用于增强Stable Diffusion模型中使用的CLIP文本编码器,从而实现更好的文本到图像生成质量。与替换大型语言模型不同,TextCraftor方法通过fine-tune增强原有编码器,同时还能够进行可控图像生成。
- 其它亮点实验结果表明,使用TextCraftor方法fine-tune文本编码器能够显著提高定量评估和人类评估的性能。此外,通过对不同奖励进行fine-tune,可以实现可控图像生成。本文的方法与UNet fine-tune相互独立,可以结合使用以进一步提高生成质量。论文使用了Stable Diffusion模型和CLIP文本编码器,并在多个数据集上进行了实验。
- 相关研究包括使用GAN进行图像生成的研究,以及对Stable Diffusion模型和CLIP文本编码器的改进研究。
沙发等你来抢
去评论
评论
沙发等你来抢