PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement

简介

最近生成式人工智能的进展显著推动了文本到图像生成领域。最先进的文本到图像模型 Stable Diffusion 现在能够合成具有强烈美感的高质量图像。因此，制定与模型解释和用户意图一致的文本提示变得至关重要。然而，由于 Stable Diffusion 模型的复杂性以及迭代编辑和完善文本提示所需的不轻松的努力，对于新手用户来说，提示仍然具有挑战性。为了解决这些挑战，我们提出了 PromptCharm，这是一个多模态提示工程和完善的混合倡议系统，以促进文本到图像的创作。为了帮助新手用户提示，PromptCharm 首先会自动完善和优化用户的初始提示。此外，PromptCharm 支持用户在大型数据库中探索和选择不同的图像风格。为了帮助用户有效地完善他们的提示和图像，PromptCharm 通过可视化模型的注意力值来呈现模型解释。如果用户注意到生成的图像中有任何不满意的地方，他们可以通过 PromptCharm 丰富的反馈循环中的模型注意力调整或图像修复进一步完善图像。为了评估 PromptCharm 的有效性和易用性，我们进行了一项有控制的用户研究和一项探索性的用户研究，共有 12 名参与者。这两项研究表明，与使用缺乏交互或可视化支持的 PromptCharm 两个变体相比，使用 PromptCharm 的参与者能够创建更高质量且更符合用户期望的图像。
图表
解决问题

PromptCharm: 一种多模态提示工具，以辅助用户更有效地使用 Stable Diffusion 模型生成高质量图像。
关键思路

PromptCharm 通过自动优化用户的初始提示、支持用户在大型数据库中探索和选择不同的图像样式、通过可视化模型的注意力值来帮助用户有效地调整提示和图像等方式，提高用户使用 Stable Diffusion 模型生成高质量图像的成功率和效率。
其它亮点

论文设计了两个用户研究，结果显示使用 PromptCharm 比使用缺乏交互或可视化支持的 PromptCharm 变体生成的图像质量更高，更符合用户的预期。论文使用的数据集和代码也有所公开。
相关研究

最近在文本到图像生成领域，还有一些相关的研究，如 CLIP+VQGAN、DALL-E 等。

PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement

评论