A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image Synthesis

简介

设计良好的提示已经展示了指导文本到图像模型生成惊人图像的潜力。尽管现有的提示工程方法可以提供高级别的指导，但由于新手用户输入提示与模型首选提示之间存在差异，因此手动输入提示难以实现期望的结果。为了弥合用户输入行为和模型训练数据集之间的分布差距，我们首先构建了一个新颖的粗细颗粒度提示数据集（CFP），并提出了一个新颖的用户友好的细粒度文本生成框架（UF-FGTG）进行自动提示优化。对于CFP，我们构建了一个新的文本到图像任务数据集，将粗细颗粒度提示结合起来，以促进自动提示生成方法的发展。对于UF-FGTG，我们提出了一个新的框架，将用户输入的提示自动翻译成模型首选提示。具体而言，我们提出了一个提示精炼器，不断重写提示，使用户能够选择符合其独特需求的结果。同时，我们将文本到图像模型的与图像相关的损失函数整合到文本生成的训练过程中，以生成模型首选提示。此外，我们提出了一种自适应特征提取模块，以确保生成的结果多样性。实验表明，我们的方法能够生成比以前最先进的方法更具视觉吸引力和多样性的图像，平均改善了六个质量和美学指标的5%。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

自动生成文本到图像任务中，如何优化用户输入的提示信息，以产生更具吸引力和多样性的图像？
关键思路

提出了一种自动生成优化提示信息的框架，该框架包括粗细粒度提示数据集和用户友好的细粒度文本生成模块。该模块使用自适应特征提取和图像相关的损失函数来生成模型优选的提示信息。
其它亮点

实验结果表明，该方法比之前的最先进方法在六个质量和美学指标上平均提高了5％。研究还构建了一个新的粗细粒度提示数据集，以促进自动提示生成方法的发展。
相关研究

最近的相关研究包括：《Generative Adversarial Text-to-Image Synthesis: A Survey》、《StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks》等。

A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image Synthesis

提问交流

提问交流