- 简介这篇论文讨论了T2I(文本到图像)生成模型的输出控制问题,指出了手工制作提示的劳动强度和自动提示生成算法的局限性。为了解决这些问题,作者提出了PRISM算法,该算法可以自动识别人类可解释且可迁移的提示,只需黑盒访问T2I模型即可有效生成所需的概念。PRISM算法受到大型语言模型(LLM)越狱的启发,利用LLM的上下文学习能力,迭代地优化给定参考图像的候选提示分布。实验结果表明,PRISM在多个T2I模型中生成对象、风格和图像的准确提示方面具有多样性和有效性,包括Stable Diffusion、DALL-E和Midjourney。
-
- 图表
- 解决问题本论文旨在解决T2I生成模型中自动提示生成的问题,即如何自动识别可传递的、人可解释的提示,以有效地生成所需的概念,而不需要手动制作提示。
- 关键思路PRISM算法可以自动识别出黑匣子模型中的人可解释和可传递的提示,用于生成所需的概念。PRISM利用大型语言模型的上下文学习能力,通过迭代地优化候选提示分布,实现自动提示生成。
- 其它亮点本论文提出了PRISM算法,可以自动识别人可解释和可传递的提示,用于生成所需的概念,具有很高的实用性和通用性。PRISM算法在多个T2I模型上进行了实验验证,包括Stable Diffusion、DALL-E和Midjourney,证明了其有效性和多功能性。本论文还提供了数据集和开源代码,方便其他研究者进行相关研究。
- 近期在这个领域中的相关研究包括:《GPT Understands, Too》、《Learning Transferable Visual Models From Natural Language Supervision》、《Generative Pretraining from Pixels》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流