- 简介本文探讨了利用用户提供的参考图像来自定义文本到图像扩散模型的问题。现有方法可以捕捉到参考图像的关键概念,但无法将生成的图像与提示对齐。本文旨在通过提出新方法来解决这个关键问题,这些方法可以轻松地与现有的自定义方法结合使用,优化文本编码过程中各个中间阶段的嵌入/权重。 本文的第一个贡献是分解文本编码过程中各个阶段,直到生成文本到图像模型的条件向量。我们对现有的自定义方法进行了全面的审视,并注意到该过程中的键和值输出与它们对应的基准(非自定义)模型(例如,基准稳定扩散)有很大的差异。虽然这种差异不会影响自定义的概念,但会导致生成的图像的其他部分与提示不对齐(请参见图1中的第一行)。此外,我们还观察到这些键和值允许独立控制最终生成的各个方面,从而实现输出的语义操作。综合这些键和值的特征,构成了我们下一个贡献的基础,即解决现有方法中存在的问题。我们提出了一种新的后处理算法\textbf{AlignIT},它注入了所需概念的键和值,同时确保输入提示中所有其他标记的键和值保持不变。 我们提出的方法可以直接插入现有的自定义方法中,大大提高了最终结果与输入提示的对齐性,同时保留了自定义质量。
- 图表
- 解决问题本论文的问题是如何解决现有的文本到图像生成模型在使用用户提供的参考图像进行个性化定制时,无法将生成的图像与输入提示对齐的问题。该问题是一个新问题。
- 关键思路本论文的关键思路是提出了一种名为AlignIT的后处理算法,该算法将感兴趣的概念的键和值融入到现有的个性化定制方法中,同时确保输入提示中所有其他标记的键和值保持不变,从而解决了现有方法中存在的问题。
- 其它亮点本论文对文本编码过程的各个阶段进行了解剖,发现现有的定制方法的关键和值输出与其对应的基线模型(如基线稳定扩散)存在显著差异。虽然这种差异不会影响被定制的概念,但会导致生成的图像中的其他部分与提示不对齐。此外,本论文还观察到这些键和值允许独立控制最终生成的各个方面,从而实现了输出的语义操纵。本论文的实验设计合理,使用了开源数据集和代码,值得深入研究。
- 最近在这个领域中,还有一些相关的研究,例如:《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Text-to-Image Generation with Generative Adversarial Networks: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢