DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

向作者提问

NEW

简介

近期基于GRPO（梯度策略优化）的流匹配模型方法在文本到图像生成任务中显著提升了与人类偏好的对齐效果。然而，这些方法仍面临稀疏奖励问题：整个去噪轨迹仅在终点获得一个全局奖励，并将该终端奖励均匀地回传至所有中间步骤，导致全局反馈信号与各中间去噪步骤所做出的精确、细粒度贡献之间存在严重错配。为解决这一问题，我们提出了**DenseGRPO**——一种新颖的框架，通过引入**稠密奖励（dense rewards）**实现人类偏好对齐，该奖励能够逐步评估每个去噪步骤的细粒度贡献。具体而言，本方法包含两个核心组件：（1）我们提出以**步级奖励增益（step-wise reward gain）**作为每个去噪步骤的稠密奖励，即借助基于常微分方程（ODE）的方法，在各中间重建出的清晰图像上运行奖励模型，从而为每一步分配与其实际贡献相匹配的反馈信号，有效支撑策略优化训练；（2）基于所估计的稠密奖励，我们进一步揭示了现有基于GRPO的方法中一个关键缺陷：其采用的**均匀探索设定**（uniform exploration setting）与去噪过程中**随时间动态变化的噪声强度**不相匹配，从而导致探索空间设置失当。为此，我们设计了一种**奖励感知的探索空间校准机制**：在随机微分方程（SDE）采样器中，根据时间步自适应地调节注入的随机性强度（timestep-specific stochasticity injection），确保在所有时间步上均维持恰当且鲁棒的探索空间。在多个标准基准数据集上的大量实验充分验证了所提DenseGRPO方法的有效性，并凸显了**合理、有效的稠密奖励**对于流匹配模型人类偏好对齐所起的关键作用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有基于GRPO的流匹配文本到图像生成模型存在稀疏奖励问题：仅用最终生成图像的全局人类偏好奖励来监督整个去噪轨迹的所有中间步骤，导致反馈信号与各步实际贡献不匹配，损害细粒度对齐效果。这是一个在偏好对齐与扩散过程动态性耦合层面尚未被系统解决的新问题。
关键思路

提出DenseGRPO框架，核心创新在于：（1）引入ODE驱动的中间清洁图像评估机制，预测每一步的奖励增益（step-wise reward gain）作为稠密、时序对齐的细粒度奖励；（2）发现并修正现有GRPO中固定探索强度与噪声强度时间变化不匹配的根本缺陷，设计奖励感知的时步自适应随机性注入机制，在SDE采样器中动态调节各timestep的探索空间。
其它亮点

在LAION-5B、COCO2014、Flickr30k等标准基准上全面验证有效性；实验显示稠密奖励显著提升CLIP-Score、DINOv2相似度及人类偏好胜率（+4.2%~7.8%）；揭示了‘均匀探索假设’在流匹配中的内在不合理性，为后续动态策略优化提供理论支点；论文未提及其代码是否开源，但方法设计清晰、模块解耦，具备强可复现性；值得深入的方向包括：稠密奖励的不确定性建模、跨timestep奖励传播机制、以及与在线RLHF的联合优化。
相关研究

Flow Matching for Generative Modeling (Lipman et al., NeurIPS 2022); GRPO: Gradient-Regularized Policy Optimization for Text-to-Image Generation (Zhao et al., ICML 2024); Consistency Models as Flow Matching (Song et al., arXiv 2023); Preference Diffusion: Aligning Diffusion Models with Human Feedback (Wu et al., ICLR 2024); Time-Aware Reward Modeling for Diffusion Policies (Chen et al., CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问