Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation

向作者提问

NEW

简介

这篇论文讨论了T2I（文本到图像）生成模型的输出控制问题，指出了手工制作提示的劳动强度和自动提示生成算法的局限性。为了解决这些问题，作者提出了PRISM算法，该算法可以自动识别人类可解释且可迁移的提示，只需黑盒访问T2I模型即可有效生成所需的概念。PRISM算法受到大型语言模型（LLM）越狱的启发，利用LLM的上下文学习能力，迭代地优化给定参考图像的候选提示分布。实验结果表明，PRISM在多个T2I模型中生成对象、风格和图像的准确提示方面具有多样性和有效性，包括Stable Diffusion、DALL-E和Midjourney。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决T2I生成模型中自动提示生成的问题，即如何自动识别可传递的、人可解释的提示，以有效地生成所需的概念，而不需要手动制作提示。
关键思路

PRISM算法可以自动识别出黑匣子模型中的人可解释和可传递的提示，用于生成所需的概念。PRISM利用大型语言模型的上下文学习能力，通过迭代地优化候选提示分布，实现自动提示生成。
其它亮点

本论文提出了PRISM算法，可以自动识别人可解释和可传递的提示，用于生成所需的概念，具有很高的实用性和通用性。PRISM算法在多个T2I模型上进行了实验验证，包括Stable Diffusion、DALL-E和Midjourney，证明了其有效性和多功能性。本论文还提供了数据集和开源代码，方便其他研究者进行相关研究。
相关研究

近期在这个领域中的相关研究包括：《GPT Understands, Too》、《Learning Transferable Visual Models From Natural Language Supervision》、《Generative Pretraining from Pixels》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问