- 简介本文考虑使用用户提供的参考图像来定制文本到图像扩散模型的问题。在给定新提示时,现有方法可以捕捉参考图像的关键概念,但无法将生成的图像与提示对齐。本文旨在通过提出新的方法来解决这个关键问题,这些方法可以很容易地与现有的定制方法结合使用,在文本编码过程的各个中间阶段优化嵌入/权重。 本文的第一个贡献是对文本编码过程的各个阶段进行分析,以获得文本到图像模型的条件向量。我们对现有的定制方法进行了全面的考虑,并注意到该过程的关键输出与其对应的基准(非定制)模型(例如,基线稳定扩散)存在明显差异。虽然这种差异不影响被定制的概念,但会导致生成图像的其他部分与提示不对齐。此外,我们还观察到这些键和值允许独立控制最终生成的各个方面,从而实现输出的语义操作。总的来说,这些键和值跨越的特征构成了我们下一个贡献的基础,我们在其中解决了现有方法存在的问题。我们提出了一种新的后处理算法 AlignIT,它注入了所需概念的键和值,同时确保输入提示中所有其他标记的键和值不变。 我们提出的方法可以直接插入现有的定制方法中,从而大大提高了最终结果与输入提示的对齐性能,同时保持了定制质量。
- 图表
- 解决问题本文旨在解决使用用户提供的参考图像定制文本到图像扩散模型时,生成的图像与输入提示不对齐的问题。
- 关键思路本文提出了一种新的后处理算法AlignIT,该算法将感兴趣的概念的关键和值注入到现有的自定义方法中,同时确保输入提示中的所有其他令牌的键和值不变,从而解决了现有方法存在的问题。
- 其它亮点本文对文本编码过程的各个阶段进行了分析,并提出了一种新的后处理算法AlignIT,该算法可以与现有的自定义方法直接插入使用,从而提高了最终结果与输入提示的对齐性。
- 最近在这个领域中,还有一些相关的研究,例如《Generative Adversarial Text-to-Image Synthesis: A Review》、《Generative Adversarial Networks for Image and Video Synthesis: Algorithms and Applications》等。
沙发等你来抢
去评论
评论
沙发等你来抢