Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

简介

使用带有人类反馈的强化学习（RLHF）已经在微调扩散模型方面显示出了显著的前景。以前的方法是先训练一个与人类偏好相一致的奖励模型，然后利用RL技术来微调基础模型。然而，制作高效的奖励模型需要大量的数据集、最佳架构和手动超参数调整，使得这个过程既耗时又耗费成本。直接偏好优化（DPO）方法在微调大型语言模型方面很有效，消除了奖励模型的必要性。然而，扩散模型去噪过程所需的大量GPU内存限制了直接应用DPO方法。为了解决这个问题，我们引入了直接偏好去噪扩散策略优化（D3PO）方法来直接微调扩散模型。理论分析表明，尽管D3PO省略了训练奖励模型，但它有效地作为使用人类反馈数据训练的最优奖励模型来引导学习过程。这种方法不需要训练奖励模型，证明更为直接、经济、并且最小化计算开销。在实验中，我们的方法使用目标的相对比例作为人类偏好的代理，提供了与使用真实奖励的方法相当的结果。此外，D3PO展示了减少图像失真率和生成更安全图像的能力，克服了缺乏强大奖励模型的挑战。我们的代码可在https://github.com/yk7333/D3PO/tree/main上公开获取。
图表
解决问题

论文旨在使用直接的偏好优化方法（DPO）来直接优化扩散模型，以解决使用强化学习和人类反馈的扩散模型微调中存在的问题。这是否是一个新问题？
关键思路

论文使用直接偏好优化方法（DPO）来直接微调扩散模型，而无需训练奖励模型。该方法有效地模拟了使用人类反馈数据训练的最佳奖励模型，同时具有更高的效率和较少的计算开销。这篇论文的思路有什么新意？
其它亮点

该论文提出了D3PO方法，使用相对目标的比例作为人类偏好的代理，以直接优化扩散模型。该方法在图像去噪方面表现出色，并且能够生成更安全的图像。实验使用公开数据集，代码也已公开。值得进一步研究如何将D3PO方法应用于其他领域。
相关研究

最近的相关研究包括：使用RLHF微调扩散模型的方法，以及使用DPO微调大型语言模型的方法。

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

评论