- 简介传统的文本到图像扩散模型难以生成准确的人类图像,通常会导致不完美的解剖结构,如不自然的姿势或不成比例的肢体。现有的方法主要通过使用额外的图像对模型进行微调或在图像生成阶段添加附加控制 - 人类中心先验,如姿势或深度图 - 来解决这个问题。本文探讨将这些人类中心先验直接整合到模型微调阶段,从根本上消除了推理阶段的额外条件。我们通过提出一种人类中心对齐损失来实现这个想法,以加强来自交叉注意力图中的文本提示的与人类相关的信息。为了在微调过程中确保语义细节丰富性和人体结构的准确性,我们根据对交叉注意力层的深入分析,引入了尺度感知和逐步约束到扩散过程中。广泛的实验证明,我们的方法大大改进了最先进的文本到图像模型,可以基于用户编写的提示合成高质量的人类图像。项目页面:\url{https://hcplayercvpr2024.github.io}。
-
- 图表
- 解决问题本文旨在解决文本到图像生成模型中存在的人体结构不自然的问题,通过将人体相关的先验知识直接引入模型的fine-tuning阶段来提高生成图像的质量。
- 关键思路本文提出了一种人体相关的对齐损失函数,将文本提示中的人体相关信息加强到交叉注意力图中,从而实现将人体相关的先验知识直接引入模型的fine-tuning阶段。此外,根据交叉注意力层的深入分析,本文还引入了尺度感知和逐步约束等方法,以保证fine-tuning过程中的语义细节丰富性和人体结构准确性。
- 其它亮点本文的实验表明,相比于现有的文本到图像生成模型,本文提出的方法在生成高质量人体图像方面表现更好。本文还提供了项目页面和开源代码。
- 在文本到图像生成领域,近期还有一些相关研究,如《Generative Adversarial Text-to-Image Synthesis: A Review》、《MirrorGAN: Learning Text-to-image Generation by Redescription》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流