Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

2024年06月06日
  • 简介
    最近,直接偏好优化(DPO)已经将其成功从对齐大型语言模型(LLMs)扩展到将文本到图像扩散模型与人类偏好对齐。与大多数现有的DPO方法不同,这些方法假设所有扩散步骤与最终生成的图像共享一致的偏好顺序,我们认为这种假设忽略了每个步骤特定的降噪性能,因此偏好标签应该针对每个步骤的贡献进行调整。为了解决这个问题,我们提出了一种新的后训练方法,称为Step-aware Preference Optimization(SPO),该方法独立地评估和调整每个步骤的降噪性能,使用一个步骤感知的偏好模型和一个逐步的重新采样器来确保准确的步骤感知监督。具体而言,在每个降噪步骤中,我们采样一组图像,找到一个合适的胜负组合,并且最重要的是,随机选择一个图像从这个组合中初始化下一个降噪步骤。这个逐步重新采样的过程确保下一个胜负图像对来自同一张图片,使得胜负比较独立于前一个步骤。为了评估每个步骤的偏好,我们训练了一个单独的步骤感知偏好模型,可以应用于噪声和干净的图像。我们使用Stable Diffusion v1.5和SDXL进行的实验表明,SPO在对齐具有复杂、详细提示的生成图像和提高美学方面显著优于最新的Diffusion-DPO,同时在训练效率方面也实现了20倍以上的提升。代码和模型:https://rockeycoss.github.io/spo.github.io/
  • 图表
  • 解决问题
    本文旨在解决图像生成模型中的Direct Preference Optimization(DPO)方法的局限性,即忽略了每个扩散步骤的去噪性能,导致偏好标签不能适应每个步骤的贡献。
  • 关键思路
    本文提出了一种新的后训练方法——Step-aware Preference Optimization(SPO),通过使用步骤感知偏好模型和逐步重新采样器来独立评估和调整每个步骤的去噪性能,以确保准确的步骤感知监督。
  • 其它亮点
    实验表明,SPO在复杂、详细的提示下对齐生成的图像并增强美感方面明显优于最新的Diffusion-DPO,并且训练效率提高了20倍以上。作者还提供了代码和模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如Diffusion-DPO。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论