ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

简介

文本到图像生成的实际应用已经从简单的单体模型发展到结合多个专业组件的复杂工作流程。虽然基于工作流程的方法可以提高图像质量，但是制定有效的工作流程需要相当的专业知识，因为有大量可用的组件，它们之间的相互依赖性复杂，并且它们依赖于生成提示。在这里，我们介绍了新颖的任务，即提示自适应工作流程生成，其目标是自动为每个用户提示量身定制工作流程。我们提出了两种基于LLM的方法来解决这个任务：一种是基于调整的方法，它从用户偏好数据中学习，另一种是无需训练的方法，它使用LLM来选择现有的工作流程。这两种方法都比单体模型或通用的提示独立工作流程具有更好的图像质量。我们的工作表明，基于提示的流预测为改善文本到图像生成质量提供了一条新的途径，这是补充该领域现有研究方向的。
图表
解决问题

本论文旨在解决文本到图像生成中的工作流程自动化问题，即根据用户输入的提示信息自动选择合适的工作流程，以提高图像生成的质量。
关键思路

本论文提出了两种基于LLM的方法来解决prompt-adaptive workflow generation问题，一种是基于调优的方法，另一种是无需训练的方法，两种方法都能够提高图像质量。
其它亮点

本文的实验结果表明，相较于单一模型或通用的、与提示信息无关的工作流程，基于提示信息的工作流程预测可以提高文本到图像生成的质量。此外，本文提出的两种方法都能够有效地解决prompt-adaptive workflow generation问题，并且可以为该领域的后续研究提供新的思路。
相关研究

在文本到图像生成领域，最近的相关研究包括：《Generative Adversarial Text-to-Image Synthesis》、《StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks》等。

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

评论