Aligning Diffusion Models with Noise-Conditioned Perception

2024年06月25日
  • 简介
    最近,人类偏好优化在最初用于语言模型中,已经显示出对文本到图像扩散模型具有潜力,可以增强提示对齐、视觉吸引力和用户偏好。与语言模型不同,扩散模型通常在像素或VAE空间中进行优化,这与人类感知不太相符,导致在偏好对齐阶段训练速度较慢且效率低下。我们建议在扩散模型的U-Net嵌入空间中使用感知目标来解决这些问题。我们的方法涉及在此嵌入空间中使用直接偏好优化(DPO)、对比偏好优化(CPO)和监督微调(SFT)来微调稳定扩散1.5和XL。该方法在各种指标上显著优于标准潜空间实现,包括质量和计算成本。对于SDXL,在PartiPrompts数据集上,我们的方法提供了60.8%的一般偏好、62.2%的视觉吸引力和52.1%的提示跟随,而与原始的开源SDXL-DPO相比,计算成本显著降低。我们的方法不仅可以提高扩散模型的人类偏好对齐的效率和质量,而且还可以轻松与其他优化技术集成。训练代码和LoRA权重将在此处提供:https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
  • 图表
  • 解决问题
    论文旨在解决基于像素或VAE空间的扩散模型在人类感知方面的优化问题,提高其对话框对齐、视觉吸引力和用户偏好的训练效率。
  • 关键思路
    论文提出在扩散模型的U-Net嵌入空间中使用感知目标来解决这些问题,通过直接偏好优化、对比偏好优化和监督微调等方法在该嵌入空间中微调稳定扩散1.5和XL模型。
  • 其它亮点
    该方法在多个指标上显著优于标准潜空间实现,包括质量和计算成本。在PartiPrompts数据集上,相对于原始的开源SDXL-DPO方法,该方法提供了60.8%的一般偏好、62.2%的视觉吸引力和52.1%的对话框跟随,同时显著降低了计算成本。代码和权重将在https://huggingface.co/alexgambashidze/SDXL_NCP-DPO_v0.1上公开。
  • 相关研究
    最近的相关研究包括“Learning to Simulate Complex Physics with Graph Networks”和“Generative Pretraining from Pixels”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论