- 简介文本到图像模型通过自然语言引导图像生成过程,提供了一种新的创意灵活性。然而,使用这些模型在不同的提示下一致地描绘相同的主题仍然具有挑战性。现有方法通过微调模型来教授描述特定用户提供的主题的新单词或向模型添加图像条件。这些方法需要针对每个主题进行漫长的优化或大规模预训练。此外,它们难以将生成的图像与文本提示对齐,并且在描绘多个主题时遇到困难。在这里,我们介绍了ConsiStory,一种无需训练的方法,通过共享预训练模型的内部激活,实现了一致的主题生成。我们引入了一个主题驱动的共享注意力块和基于对应关系的特征注入,以促进图像之间的主题一致性。此外,我们开发了策略,以鼓励布局多样性同时保持主题的一致性。我们将ConsiStory与一系列基线进行比较,并展示了在主题一致性和文本对齐方面的最新性能,而无需进行任何优化步骤。最后,ConsiStory可以自然地扩展到多主题场景,甚至可以实现常见对象的无需训练的个性化。
-
- 解决问题ConsiStory试图解决使用文本生成图像时,如何保持主题一致性的问题。现有方法需要对每个主题进行优化,或进行大规模的预训练,难以实现多主题的一致性。
- 关键思路ConsiStory是一个无需训练的方法,通过共享预训练模型的内部激活来实现一致性主题生成。论文引入了主题驱动的共享注意块和基于对应关系的特征注入,以促进图像之间的主题一致性。同时,还开发了策略来鼓励布局多样性,同时保持主题一致性。
- 其它亮点论文的实验结果表明,ConsiStory在主题一致性和文本对齐方面表现出了最先进的性能,而无需进行任何优化。此外,ConsiStory还可以自然地扩展到多主题场景,甚至可以实现无需训练的常见对象个性化。
- 最近的相关研究包括使用GAN生成图像的方法,以及使用文本和图像之间的对齐来生成图像的方法。其中一些论文包括《Generative Adversarial Text-to-Image Synthesis》和《Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books》。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流