RL for Consistency Models: Faster Reward Guided Text-to-Image Generation

向作者提问

NEW

简介

强化学习（RL）通过直接优化捕捉图像质量、美学和指令遵循能力的奖励，改进了扩散模型的引导图像生成。然而，生成策略继承了扩散模型的迭代采样过程，导致生成速度缓慢。为了克服这个限制，一致性模型提出了学习一种直接将噪声映射到数据的新型生成模型，从而产生一个可以在少于一个采样迭代中生成图像的模型。本文提出了一个框架，通过RL对一致性模型进行微调，以优化任务特定的奖励和实现快速训练和推理。我们的框架称为一致性模型的强化学习（RLCM），将一致性模型的迭代推理过程作为RL过程来处理。RLCM在文本到图像生成能力上改进了RL微调扩散模型，并在推理时交换计算量和样本质量。实验结果表明，RLCM可以将文本到图像一致性模型适应于难以通过提示表达的目标，例如图像可压缩性和人类反馈导出的美学质量。与RL微调扩散模型相比，RLCM的训练速度更快，根据奖励目标衡量的生成质量更高，并通过在两个推理步骤中生成高质量图像来加速推理过程。我们的代码可在https://rlcm.owenoertell.com获得。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

本文旨在通过强化学习 fine-tuning 一种新型的一步生成模型，以解决文本到图像生成过程中的迭代取样限制，提高生成速度和质量。
关键思路

本文提出了一种名为 RLCM 的框架，将一致性模型的迭代推理过程视为强化学习过程，以优化文本到图像生成模型的任务特定奖励，并实现快速训练和推理。
其它亮点

本文的亮点包括：1. 提出了 RLCM 框架，通过强化学习 fine-tuning 一种新型的一步生成模型，以提高生成速度和质量；2. 实验结果表明，RLCM 可以适应一些难以通过提示表达的目标，如图像压缩性能，以及从人类反馈中得出的审美质量等；3. 与 RL fine-tuned diffusion models 相比，RLCM 训练速度更快，生成质量更高，并且只需要两个推理步骤就能生成高质量的图像。
相关研究

在这个领域中，还有一些相关的研究，例如：1. Image Generation with Noise-Aware Generative Policies (CVPR 2021)；2. Learning to Generate Images with Fewer Iterations via Reinforcement Learning (NeurIPS 2020)；3. Text-to-Image Generation Grounded by Fine-Grained User Attention (CVPR 2020)。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问