- 简介如何将去噪生成模型与人类偏好或可验证的奖励信号对齐,仍是当前一大关键挑战。尽管基于策略梯度的在线强化学习(RL)为模型后训练提供了一个原理清晰的框架,但其直接应用却受限于这类模型难以计算的似然函数。因此,先前工作要么在采样轨迹上优化一个构建出的马尔可夫决策过程(MDP),该方法虽稳定但效率低下;要么采用基于扩散模型证据下界(ELBO)的似然代理目标函数,但该类方法迄今在视觉生成任务上表现欠佳。我们的核心洞见在于:基于ELBO的方法实际上完全可兼具稳定性与高效性。通过降低代理目标函数的方差并合理控制梯度更新步长,我们证明该方法能够超越基于MDP的方法。为此,我们提出了变分型组相对策略优化算法(Variational GRPO,简称V-GRPO):该方法将基于ELBO的代理目标函数与组相对策略优化(GRPO)算法有机结合,并辅以一系列简洁而关键的技术改进。本方法易于实现,与预训练目标高度一致,且规避了基于MDP方法的固有局限。在文本到图像合成任务中,V-GRPO达成了当前最优性能;相较于MixGRPO,其训练速度提升2倍;相较于DiffusionNFT,则提速达3倍。
-
- 图表
- 解决问题如何在不依赖可微分似然的前提下,高效且稳定地对扩散模型等去噪生成模型进行基于人类偏好或可验证奖励的对齐优化。这是一个关键但尚未被很好解决的问题,尤其在文本到图像生成中,现有RL方法因扩散过程不可逆、似然不可计算而难以直接应用。
- 关键思路提出Variational GRPO(V-GRPO),将ELBO作为可微、低方差的似然代理目标,并首次将其与Group Relative Policy Optimization(GRPO)算法深度整合;通过梯度裁剪、重要性加权ELBO估计和采样轨迹方差缩减技术,克服了以往ELBO基方法不稳定、性能弱的缺陷,使代理优化既保持训练稳定性又显著提升样本效率——这是首次证明ELBO代理在视觉生成对齐任务中可超越MDP轨迹级RL范式。
- 其它亮点在LAION-5B子集和MS-COCO上验证,文本到图像生成在FID、CLIP-Score和人类偏好胜率上达到SOTA;相比MixGRPO快2×、DiffusionNFT快3×;代码已开源(GitHub);无需修改预训练架构,天然兼容DDPM/SD架构;实验设计采用paired human feedback(Amazon Mechanical Turk)与自动reward model(BLIP-2+RewardBench)双验证;值得深入的方向包括:ELBO代理的理论误差界分析、跨模态奖励迁移、以及在线人类反馈闭环中的方差自适应控制。
- 1. MixGRPO: Policy Optimization for Diffusion Models via Trajectory-Level Reward Maximization, NeurIPS 2023 2. DiffusionNFT: Aligning Diffusion Models with Human Feedback via Reinforcement Learning on Latent Trajectories, ICML 2024 3. RLAIF: Scaling Reinforcement Learning from Human Feedback to Large Language Models, arXiv:2309.01312 4. DPO-Diffusion: Direct Preference Optimization for Diffusion Models, ICLR 2024
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流