Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

简介

将人类偏好与大型语言模型对齐已成为语言建模研究的关键焦点。然而，将偏好学习整合到文本到图像（T2I）生成模型中仍然是相对未知的领域。Diffusion-DPO技术通过在特定文本提示的扩散模型中采用成对偏好学习，取得了初步进展。我们介绍了Diffusion-RPO，这是一种新方法，旨在更有效地将基于扩散的T2I模型与人类偏好对齐。这种方法利用了具有相同提示和跨各种模态具有语义相关内容的提示-图像对。此外，我们开发了一种新的评估指标，即样式对齐，旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。我们的研究结果表明，Diffusion-RPO在调整稳定扩散版本1.5和XL-1.0方面优于已有的方法，如监督微调和Diffusion-DPO，在自动评估人类偏好和样式对齐方面均取得了更优秀的结果。我们的代码可在https://github.com/yigu1008/Diffusion-RPO上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在Text-to-Image (T2I)生成模型中整合人类偏好学习？该论文试图解决这个问题。
关键思路

该论文提出了一种名为Diffusion-RPO的新方法，旨在更有效地将扩散式T2I模型与人类偏好对齐。该方法利用具有相同提示和具有在各种模态下具有语义相关内容的提示-图像对。此外，该论文还开发了一种新的评估指标，样式对齐，旨在克服当前人类偏好对齐评估中存在的高成本、低可重复性和有限可解释性的挑战。
其它亮点

该论文的实验结果表明，Diffusion-RPO在调整Stable Diffusion版本1.5和XL-1.0时，优于已有的方法，如监督微调和Diffusion-DPO，不仅在自动化人类偏好评估方面表现出色，而且在样式对齐方面也表现出色。该论文的代码已在GitHub上开源。
相关研究

最近在这个领域中，还有一些相关的研究，如：1）Diffusion-DPO；2）监督微调。

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

提问交流

提问交流