Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

2025年03月26日
  • 简介
    无分类器引导(Classifier-Free Guidance, CFG)是训练条件扩散模型的一项基本技术。传统的CFG训练方法是使用单一网络同时学习条件和非条件噪声预测,其中对条件输入施加较小的dropout率。然而,我们观察到,在训练中以有限带宽联合学习非条件噪声会导致非条件情况下的较差先验。更重要的是,这些较差的非条件噪声预测成为降低条件生成质量的一个重要因素。受大多数基于CFG的条件模型通过微调一个具有更好非条件生成能力的基础模型这一事实的启发,我们首先表明,仅用基础模型预测的非条件噪声简单替换掉CFG中的非条件噪声,就可以显著提升条件生成的质量。此外,我们还证明,可以使用微调模型所基于的扩散模型之外的其他扩散模型来进行非条件噪声替换。我们通过一系列基于CFG的条件模型在图像和视频生成任务上的实验验证了我们的观点,这些模型包括Zero-1-to-3、Versatile Diffusion、DiT、DynamiCrafter和InstructPix2Pix。
  • 图表
  • 解决问题
    该论文试图解决Classifier-Free Guidance (CFG) 中因联合学习无条件噪声预测而导致的生成质量下降问题,特别是当无条件噪声预测较差时对有条件生成的影响。这是一个在扩散模型领域中较为具体的技术问题,虽然已有研究关注CFG,但针对无条件噪声预测对有条件生成的影响进行优化的研究相对较少。
  • 关键思路
    论文的关键思路是通过替换细调模型中的无条件噪声预测部分,使用一个基础模型(或甚至其他扩散模型)来提供更高质量的无条件噪声预测。这种方法避免了联合训练过程中无条件噪声预测的不足,从而显著提升有条件生成的质量。相比当前领域的研究,这种解耦无条件噪声预测的方法是一种新颖的改进策略。
  • 其它亮点
    论文实验验证了多种CFG-based条件生成模型(如Zero-1-to-3、Versatile Diffusion等)在图像和视频生成任务中的效果改进,并表明即使使用非原生扩散模型进行无条件噪声替换也能有效提升性能。此外,作者指出这种方法简单易用,无需额外训练成本。论文未明确提及数据集细节,但提到多个生成模型的实验结果。代码开源情况未明确说明,但值得进一步探索其在更多模型和任务上的应用潜力。
  • 相关研究
    相关研究包括:1) 原始的Classifier-Free Guidance方法(Ho et al., 2022),奠定了扩散模型有条件生成的基础;2) 研究扩散模型优化的DiT (Denoising-in-the-loop) 方法(Parmar et al., 2023);3) 针对视频生成的DynamiCrafter模型(Liu et al., 2023);4) InstructPix2Pix(Shih et al., 2023),一种基于文本指令的图像编辑模型。这些工作共同推动了扩散模型在条件生成任务中的发展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论