Gaussian Mixture Flow Matching Models

2025年04月07日
  • 简介
    扩散模型将去噪分布近似为高斯分布,并预测其均值,而流匹配模型则将高斯均值重新参数化为流速度。然而,由于离散化误差,这些模型在少量步骤采样中表现不佳,并且在无分类器引导(CFG)下往往会产生过饱和的颜色。为了解决这些问题,我们提出了一种新的高斯混合流匹配(GMFlow)模型:GMFlow 不是预测均值,而是预测动态高斯混合(GM)参数以捕捉多模态的流速度分布,这种分布可以通过 KL 散度损失进行学习。我们证明了 GMFlow 是对先前扩散模型和流匹配模型的推广,在这些模型中,单个高斯分布通过 $L_2$ 去噪损失进行学习。在推理阶段,我们推导出了 GM-SDE/ODE 求解器,该求解器利用解析的去噪分布和速度场实现精确的少步采样。此外,我们引入了一种新的概率引导方案,该方案缓解了 CFG 的过饱和问题并提高了图像生成质量。大量实验表明,GMFlow 在生成质量上始终优于流匹配基线模型,在仅使用 6 步采样的情况下,于 ImageNet 256$\times$256 数据集上实现了 0.942 的精度。
  • 图表
  • 解决问题
    该论文试图解决扩散模型和流匹配模型在少步采样中的性能问题,以及分类器自由引导(CFG)下生成图像的过饱和颜色问题。这些问题限制了现有模型在高效高质量图像生成中的应用,因此提出了一种新的方法来改进这些局限性。
  • 关键思路
    论文提出了一种名为Gaussian Mixture Flow Matching (GMFlow) 的新模型。与传统方法不同,GMFlow通过预测动态高斯混合参数来捕捉多模态流速度分布,并使用KL散度损失进行学习。此外,它还引入了GM-SDE/ODE求解器以实现精确的少步采样,并提出了一个新的概率引导方案以缓解CFG下的过饱和问题。相比之前仅学习单个高斯分布的方法,这一思路显著提升了模型对复杂分布的建模能力。
  • 其它亮点
    1. GMFlow能够通过6步采样在ImageNet 256x256数据集上达到0.942的精度,展现了其高效性和高质量生成能力。 2. 提出了GM-SDE/ODE求解器,利用解析去噪分布和速度场实现更精确的少步采样。 3. 新的概率引导方案有效缓解了CFG下的颜色过饱和问题,进一步提升生成图像的质量。 4. 论文实验设计全面,涵盖了多种采样步数和数据集上的对比分析。代码尚未明确提及是否开源,但值得期待未来公开。 5. 未来可以深入研究如何将GMFlow扩展到更高分辨率图像或视频生成领域。
  • 相关研究
    近期相关研究包括: 1. "Score-Based Generative Modeling through Stochastic Differential Equations",探索了基于分数的生成模型结合SDEs的方法。 2. "Denoising Diffusion Probabilistic Models",奠定了扩散模型的基础理论。 3. "Flow Matching for Generative Modeling",提出了直接优化连续时间流匹配目标的生成模型。 4. "Classifier-Free Diffusion Guidance",研究了无需额外分类器的生成模型引导技术。 这些工作主要集中在单高斯分布假设或固定步数采样上,而GMFlow通过引入高斯混合分布提供了更灵活的建模方式。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论