- 简介本文介绍了第一个基于梯度的文本到图像扩散模型中提示优化框架。我们将提示工程形式化为语言空间中的离散优化问题。在高效地找到问题解决方案时,存在两个主要挑战:(1)巨大的领域空间:将领域设置为整个语言空间会给优化过程带来重大困难。(2)文本梯度:高效计算文本梯度具有挑战性,因为它需要通过扩散模型的推理步骤和不可微分的嵌入查找表进行反向传播。除了问题的形式化,我们的主要技术贡献在于解决上述挑战。首先,我们设计了一个动态生成的紧凑子空间系列,仅包含与用户输入最相关的单词,从而大大限制了领域空间。其次,我们引入了“快捷文本梯度”——一种有效的文本梯度替代品,可以在常数内存和运行时间内获得。对来自不同来源(DiffusionDB、ChatGPT、COCO)的提示进行的实证评估表明,我们的方法可以发现大大改善(提示增强)或破坏(对抗攻击)文本到图像扩散模型生成图像的忠实度的提示。
-
- 图表
- 解决问题本文介绍了一个基于梯度的框架,用于在文本到图像扩散模型中进行提示优化。主要解决的问题是如何高效地找到最佳提示。
- 关键思路本文提出了一种动态生成紧凑子空间的方法,以显著限制领域空间,并引入了“快捷文本梯度”来有效替代文本梯度。
- 其它亮点本文的实验评估使用了多个数据集,并展示了该方法可以发现显著改善或破坏文本到图像扩散模型生成图像的提示。论文也提供了开源代码。
- 最近的相关研究包括:《Controllable Text-to-Image Generation》、《Image Generation from Text using GANs》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流