Diffusion Model Alignment Using Direct Preference Optimization

Bram Wallace ,
Meihua Dang ,
Rafael Rafailov ,
Linqi Zhou ,
Aaron Lou ,
Senthil Purushwalkam ,
Stefano Ermon ,
Caiming Xiong ,
Shafiq Joty ,
Nikhil Naik
2023年11月21日
  • 简介
    大型语言模型(LLMs)使用来自人类比较数据的强化学习从人类反馈中进行微调,以使它们更符合用户的偏好。与LLMs相比,人类偏好学习在文本到图像扩散模型中并没有得到广泛探索;目前最好的方法是使用精心策划的高质量图像和标题微调预训练模型,以改善视觉吸引力和文本对齐。我们提出了Diffusion-DPO方法,通过直接在人类比较数据上进行优化,将扩散模型与人类偏好对齐。Diffusion-DPO是从最近开发的直接偏好优化(DPO)中改编而来的,这是一种更简单的替代RLHF的方法,它直接优化在分类目标下最能满足人类偏好的策略。我们重新制定了DPO,以考虑扩散模型的似然概念,利用证据下界推导出可微分的目标。使用851K众包成对偏好的Pick-a-Pic数据集,我们使用Diffusion-DPO微调了最先进的Stable Diffusion XL(SDXL)-1.0模型的基础模型。我们微调的基础模型在人类评估中显著优于基础SDXL-1.0和由附加细化模型组成的更大的SDXL-1.0模型,改善了视觉吸引力和提示对齐。我们还开发了一种使用AI反馈并具有与使用人类偏好进行训练相当的性能的变体,为扩散模型对齐方法的扩展打开了大门。
  • 图表
  • 解决问题
    本论文旨在通过直接优化人类比较数据来解决文本到图像扩散模型与人类偏好不一致的问题,这是一个新问题。
  • 关键思路
    论文提出了Diffusion-DPO方法,将Direct Preference Optimization(DPO)方法重新制定为考虑扩散模型似然的目标函数,从而实现了直接优化人类比较数据的目的。
  • 其它亮点
    论文使用Pick-a-Pic数据集进行实验,证明了Diffusion-DPO方法在提高视觉吸引力和提示对齐方面的有效性。论文还开发了一种使用AI反馈的变体,其性能与基于人类偏好训练的方法相当。论文开源了代码。
  • 相关研究
    最近的相关研究包括使用高质量图像和标题微调预训练模型来改善视觉吸引力和文本对齐,以及使用强化学习从人类比较数据中微调大型语言模型。相关论文包括:《Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books》和《Reinforcement Learning from Human Preferences》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论