- 简介强化学习(RL)通过直接优化捕捉图像质量、美学和指令遵循能力的奖励,改进了扩散模型的引导图像生成。然而,生成策略继承了扩散模型的迭代采样过程,导致生成速度缓慢。为了克服这个限制,一致性模型提出了学习一种直接将噪声映射到数据的新型生成模型,从而产生一个可以在少于一个采样迭代中生成图像的模型。本文提出了一个框架,通过RL对一致性模型进行微调,以优化任务特定的奖励和实现快速训练和推理。我们的框架称为一致性模型的强化学习(RLCM),将一致性模型的迭代推理过程作为RL过程来处理。RLCM在文本到图像生成能力上改进了RL微调扩散模型,并在推理时交换计算量和样本质量。实验结果表明,RLCM可以将文本到图像一致性模型适应于难以通过提示表达的目标,例如图像可压缩性和人类反馈导出的美学质量。与RL微调扩散模型相比,RLCM的训练速度更快,根据奖励目标衡量的生成质量更高,并通过在两个推理步骤中生成高质量图像来加速推理过程。我们的代码可在https://rlcm.owenoertell.com获得。
-
- 图表
- 解决问题本文旨在通过强化学习 fine-tuning 一种新型的一步生成模型,以解决文本到图像生成过程中的迭代取样限制,提高生成速度和质量。
- 关键思路本文提出了一种名为 RLCM 的框架,将一致性模型的迭代推理过程视为强化学习过程,以优化文本到图像生成模型的任务特定奖励,并实现快速训练和推理。
- 其它亮点本文的亮点包括:1. 提出了 RLCM 框架,通过强化学习 fine-tuning 一种新型的一步生成模型,以提高生成速度和质量;2. 实验结果表明,RLCM 可以适应一些难以通过提示表达的目标,如图像压缩性能,以及从人类反馈中得出的审美质量等;3. 与 RL fine-tuned diffusion models 相比,RLCM 训练速度更快,生成质量更高,并且只需要两个推理步骤就能生成高质量的图像。
- 在这个领域中,还有一些相关的研究,例如:1. Image Generation with Noise-Aware Generative Policies (CVPR 2021);2. Learning to Generate Images with Fewer Iterations via Reinforcement Learning (NeurIPS 2020);3. Text-to-Image Generation Grounded by Fine-Grained User Attention (CVPR 2020)。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流