Dynamic Prompt Optimizing for Text-to-Image Generation

简介

文本到图像生成模型，特别是基于扩散模型（例如Imagen和Stable Diffusion）的模型，已经取得了重大进展。最近，人们对文本提示的微妙细化表现出了浓厚的兴趣。用户可以为了提高生成图像的质量，对文本提示中的某些单词分配权重或更改注入时间步长。然而，精细控制提示的成功取决于文本提示的准确性和权重以及时间步长的精心选择，这需要大量的手动干预。为了解决这个问题，我们引入了Prompt Auto-Editing（PAE）方法。除了为图像生成精细调整原始提示外，我们还采用在线强化学习策略来探索每个单词的权重和注入时间步长，从而实现动态精细控制提示。训练期间的奖励函数鼓励模型考虑审美得分、语义一致性和用户偏好。实验结果表明，我们提出的方法有效地改善了原始提示，生成视觉上更具吸引力的图像，同时保持语义对齐。代码可在https://github.com/Mowenyii/PAE获得。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在提出一种名为PAE的Prompt Auto-Editing方法，以解决文本提示的微调问题，使生成的图像更加美观，同时保持语义一致性。
关键思路

PAE方法旨在通过在线强化学习策略来探索每个单词的权重和注入时间步长，以生成动态的微控制提示。训练期间的奖励函数鼓励模型考虑美学得分、语义一致性和用户偏好。
其它亮点

论文提出的PAE方法可以有效地改进原始提示，生成视觉上更具吸引力的图像，同时保持语义一致性。实验结果表明，该方法可以在各种数据集上达到良好的性能。作者还提供了开源代码。
相关研究

最近的相关研究包括：1. DALL·E：一种生成图像的神经网络，可以通过自然语言描述生成图像；2. CLIP：一种使用对抗性学习训练的视觉-语言预训练模型，可以在多个视觉和语言任务上取得良好的性能。

Dynamic Prompt Optimizing for Text-to-Image Generation

提问交流

提问交流