- 简介在线强化学习(RL)在语言模型的后训练中发挥了核心作用,但将其扩展到扩散模型仍面临挑战,原因在于似然函数难以处理。近期研究通过离散化逆向采样过程来实现类似GRPO的训练方式,然而这些方法继承了若干根本性缺陷,包括求解器限制、前向与反向过程不一致,以及与无分类器引导(CFG)的复杂集成问题。我们提出了扩散负感知微调(DiffusionNFT),这是一种全新的在线强化学习范式,通过流匹配直接在前向过程中优化扩散模型。DiffusionNFT通过对比正向生成与负向生成结果,定义出隐式的策略改进方向,从而将强化学习信号自然地融入监督学习目标中。该框架支持使用任意黑箱求解器进行训练,无需进行似然估计,并且策略优化仅需干净图像,而无需采样轨迹。在直接对比中,DiffusionNFT的效率最高可达FlowGRPO的25倍,且无需依赖CFG。例如,DiffusionNFT在1000步内将GenEval分数从0.24提升至0.98,而FlowGRPO需超过5000步并额外使用CFG才能达到0.95。通过利用多个奖励模型,DiffusionNFT在所有测试基准上均显著提升了SD3.5-Medium的性能。
-
- 图表
- 解决问题如何在扩散模型中高效地应用在线强化学习(RL)进行后训练优化,同时避免传统方法因不可行的似然估计、前向-反向过程不一致以及与分类器无关引导(CFG)集成复杂所带来的挑战。该问题在扩散模型领域尚属较新且具有挑战性。
- 关键思路提出DiffusionNFT,一种全新的在线强化学习范式,直接在扩散模型的前向过程中通过流匹配(flow matching)进行优化。其核心思想是通过对比正样本(高质量生成)和负样本(低质量生成)来定义隐式的策略改进方向,从而将强化学习信号自然融入监督学习目标,无需显式 likelihood 估计或反向采样轨迹。
- 其它亮点DiffusionNFT支持任意黑盒求解器,训练效率高达FlowGRPO的25倍,在1k步内将GenEval分数从0.24提升至0.98;仅需干净图像而非采样轨迹,且无需使用CFG。实验基于SD3.5-Medium模型,结合多个奖励模型,在多个基准上实现显著性能提升。论文未提及代码是否开源,但其实验设计简洁高效,值得进一步探索其在多模态、可控生成等方向的应用。
- 1. FlowGRPO: Reinforcement Learning of Diffusion Models with Flow Matching 2. Classifier-Free Guidance Duals in Diffusion Models 3. Direct Preference Optimization for Diffusion-Based Image Generation 4. Reinforcement Learning for Text-to-Image Generation: A Survey 5. Training Diffusion Models with Implicit Feedback
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流