Training-Free Consistent Text-to-Image Generation

2024年02月05日
  • 简介
    文本到图像模型通过自然语言引导图像生成过程,提供了一种新的创意灵活性水平。然而,在不同的提示下始终描绘同一主题仍然具有挑战性。现有方法通过微调模型来教授描述特定用户提供主题的新词汇或向模型添加图像条件。这些方法需要针对每个主题进行漫长的优化或大规模预训练。此外,它们难以将生成的图像与文本提示对齐,并且在描绘多个主题方面面临困难。在这里,我们介绍了ConsiStory,一种无需训练即可实现一致主题生成的方法,通过共享预训练模型的内部激活来实现。我们引入了主题驱动的共享注意力块和基于对应关系的特征注入,以促进图像之间的主题一致性。此外,我们开发了策略,以在保持主题一致性的同时鼓励布局多样性。我们将ConsiStory与一系列基线进行比较,并展示了在不需要任何优化步骤的情况下,在主题一致性和文本对齐方面的最新性能。最后,ConsiStory可以自然地扩展到多主题场景,甚至可以实现对常见对象的无需训练的个性化。
  • 图表
  • 解决问题
    如何在不需要优化的情况下实现文本到图像的一致性主题生成?
  • 关键思路
    使用主题驱动的共享注意力块和基于对应关系的特征注入来促进图像之间的主题一致性,同时鼓励布局多样性。
  • 其它亮点
    ConsiStory是一种无需优化即可实现主题一致性的方法,相比现有方法具有更好的效果,可以自然地扩展到多主题场景,并且可以用于训练-free个性化。
  • 相关研究
    相关研究包括fine-tune模型、图像条件模型和大规模预训练模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论