- 简介视频生成技术通过修正流技术取得了显著进展,但仍存在诸如运动不流畅和视频与提示之间对齐不良等问题。在这项工作中,我们开发了一个系统化的流程,利用人类反馈来缓解这些问题并优化视频生成模型。具体来说,我们首先构建了一个大规模的人类偏好数据集,专注于现代视频生成模型,并在多个维度上进行成对标注。然后,我们引入了VideoReward,一个多维度的视频奖励模型,并研究了标注和各种设计选择对其奖励效果的影响。从一个统一的强化学习视角出发,旨在通过KL正则化最大化奖励,我们为基于流的模型引入了三种对齐算法,这些算法扩展自扩散模型的算法。这包括两种训练时策略:直接针对流的偏好优化(Flow-DPO)和针对流的奖励加权回归(Flow-RWR),以及一种推理时技术,即Flow-NRG,它直接将奖励引导应用于有噪声的视频。实验结果表明,VideoReward显著优于现有的奖励模型,而Flow-DPO相比Flow-RWR和标准监督微调方法表现出更好的性能。此外,Flow-NRG允许用户在推理过程中为多个目标分配自定义权重,满足个性化的视频质量需求。项目页面:https://gongyeliu.github.io/videoalign。
- 图表
- 解决问题该论文旨在解决视频生成领域中普遍存在的问题,如不流畅的运动和视频与提示之间的错位。这些问题在使用rectified flow技术时仍然存在,影响了视频的质量和一致性。
- 关键思路关键思路是通过系统性地利用人类反馈来改进视频生成模型。具体来说,作者构建了一个大规模的人类偏好数据集,并引入了VideoReward多维视频奖励模型。此外,从强化学习的角度出发,提出了三种针对flow-based模型的对齐算法:Flow-DPO、Flow-RWR和Flow-NRG,分别用于训练和推理阶段,以提高视频质量和用户满意度。这种方法相比现有研究更具创新性,因为它结合了人类反馈和多目标优化,使得生成的视频更加符合用户的期望。
- 其它亮点论文的亮点包括:1) 构建了一个大规模的人类偏好数据集,涵盖了多个维度的标注;2) 提出的VideoReward模型显著优于现有的奖励模型;3) Flow-DPO在性能上超越了其他方法,包括标准的监督微调;4) Flow-NRG允许用户在推理时自定义权重,满足个性化需求;5) 实验设计严谨,使用了多种现代视频生成模型进行测试;6) 项目页面提供了开源代码和更多详细信息,方便后续研究。
- 最近在这个领域的相关研究包括:1) 使用扩散模型进行视频生成的研究,如《Text-to-Video Generation with Diffusion Models》;2) 强化学习在图像生成中的应用,如《Learning to Generate Images with Perceptual Reward Functions》;3) 多模态学习中的对齐问题,如《Aligning Text and Video for Improved Generation》。这些研究为本文提供了理论基础和技术支持,而本文则进一步扩展了这些方法到视频生成领域。
沙发等你来抢
去评论
评论
沙发等你来抢