DiffusionNFT: Online Diffusion Reinforcement with Forward Process

向作者提问

NEW

简介

在线强化学习（RL）在语言模型的后训练中发挥了核心作用，但将其扩展到扩散模型仍面临挑战，原因在于似然函数难以处理。近期研究通过离散化逆向采样过程来实现类似GRPO的训练方式，然而这些方法继承了若干根本性缺陷，包括求解器限制、前向与反向过程不一致，以及与无分类器引导（CFG）的复杂集成问题。我们提出了扩散负感知微调（DiffusionNFT），这是一种全新的在线强化学习范式，通过流匹配直接在前向过程中优化扩散模型。DiffusionNFT通过对比正向生成与负向生成结果，定义出隐式的策略改进方向，从而将强化学习信号自然地融入监督学习目标中。该框架支持使用任意黑箱求解器进行训练，无需进行似然估计，并且策略优化仅需干净图像，而无需采样轨迹。在直接对比中，DiffusionNFT的效率最高可达FlowGRPO的25倍，且无需依赖CFG。例如，DiffusionNFT在1000步内将GenEval分数从0.24提升至0.98，而FlowGRPO需超过5000步并额外使用CFG才能达到0.95。通过利用多个奖励模型，DiffusionNFT在所有测试基准上均显著提升了SD3.5-Medium的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在扩散模型中高效地应用在线强化学习（RL）进行后训练优化，同时避免传统方法因不可行的似然估计、前向-反向过程不一致以及与分类器无关引导（CFG）集成复杂所带来的挑战。该问题在扩散模型领域尚属较新且具有挑战性。
关键思路

提出DiffusionNFT，一种全新的在线强化学习范式，直接在扩散模型的前向过程中通过流匹配（flow matching）进行优化。其核心思想是通过对比正样本（高质量生成）和负样本（低质量生成）来定义隐式的策略改进方向，从而将强化学习信号自然融入监督学习目标，无需显式 likelihood 估计或反向采样轨迹。
其它亮点

DiffusionNFT支持任意黑盒求解器，训练效率高达FlowGRPO的25倍，在1k步内将GenEval分数从0.24提升至0.98；仅需干净图像而非采样轨迹，且无需使用CFG。实验基于SD3.5-Medium模型，结合多个奖励模型，在多个基准上实现显著性能提升。论文未提及代码是否开源，但其实验设计简洁高效，值得进一步探索其在多模态、可控生成等方向的应用。
相关研究

1. FlowGRPO: Reinforcement Learning of Diffusion Models with Flow Matching 2. Classifier-Free Guidance Duals in Diffusion Models 3. Direct Preference Optimization for Diffusion-Based Image Generation 4. Reinforcement Learning for Text-to-Image Generation: A Survey 5. Training Diffusion Models with Implicit Feedback

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问