The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

简介

最近文本到图像生成模型的进展已经开启了视觉创意的巨大潜力。然而，这些模型在生成一致的角色方面存在困难，这是许多实际应用的关键方面，例如故事可视化、游戏开发资产设计、广告等。目前的方法通常依赖于目标角色的多个现有图像或涉及劳动密集型的手动过程。在这项工作中，我们提出了一个完全自动化的解决方案，用于一致的角色生成，唯一的输入是文本提示。我们引入了一个迭代过程，在每个阶段，识别出一个连贯的图像集，共享相似的身份，并从这个集合中提取一个更一致的身份。我们的定量分析表明，与基线方法相比，我们的方法在提示对齐和身份一致性之间取得了更好的平衡，这些发现得到了用户研究的支持。最后，我们展示了我们的方法的几个实际应用。项目页面可在 https://omriavrahami.com/the-chosen-one 上找到。
图表
解决问题

本论文试图解决文本到图像生成模型在生成一致性角色方面的困难，提出一种仅需文本提示即可生成一致性角色的自动化解决方案。这是否是一个新问题？
关键思路

论文提出了一种迭代的过程，每个阶段都可以识别具有相似身份的一组连贯图像，并从该组图像中提取更一致的身份。相比当前的基准方法，我们的方法在提示对齐和身份一致性之间取得了更好的平衡，这是本论文的关键思路。
其它亮点

本论文的亮点包括：实验结果表明，相比基准方法，本文方法在提示对齐和身份一致性方面取得了更好的平衡；使用了自动化的解决方案，仅需文本提示即可生成一致性角色；提出的迭代过程可以从一组连贯图像中提取更一致的身份。此外，本文还展示了该方法在实际应用中的几个实例。项目页面提供了更多信息和开源代码。
相关研究

最近在这个领域中，还有一些相关研究，例如：1.《Generative Adversarial Text-to-Image Synthesis》；2.《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》；3.《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》等。

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

评论