When Diffusion Models Memorize: Inductive Biases in Probability Flow of Minimum-Norm Shallow Neural Nets

2025年06月23日
  • 简介
    尽管扩散模型通过概率流能够生成高质量的图像,但对此过程的理论理解仍不完整。一个关键问题是:概率流何时会收敛到训练样本,或是更广泛的位于数据流形上的点?我们通过研究使用最小 $\ell^2$ 范数训练的浅层 ReLU 神经网络去噪器的概率流来分析这一问题。为了便于理解,我们引入了一种更简单的得分流,并表明对于正交数据集,两种流动遵循相似的轨迹,最终收敛到一个训练点或多个训练点的和。然而,扩散时间调度器的提前停止机制使得概率流可以到达更一般的流形点。这反映了扩散模型既倾向于记忆训练样本,又能生成融合多个样本特征的新点,这也促使我们在简化设定下对这种行为展开研究。我们将这些结果扩展到了钝角单纯形数据,并通过在正交情况下的仿真验证了概率流确实会收敛到一个训练点、多个训练点的和,或者流形上的某个点。此外,当训练样本数量增加时,记忆效应会减弱,因为靠近训练点的样本积累得更少。
  • 图表
  • 解决问题
    论文试图解决扩散模型在生成图像时的概率流收敛问题,即概率流何时会收敛到训练样本或更一般的流形点。这一问题是当前扩散模型理论理解中的一个关键空白,属于较新的研究方向。
  • 关键思路
    作者通过分析浅层ReLU神经网络去噪器在最小ℓ²范数下的概率流行为,引入了一个更简单的“得分流”(score flow)来提供直觉。他们发现,在正交数据集上,两种流具有相似的轨迹,并且会收敛到训练点或其线性组合;而通过扩散时间调度的早停机制,使得概率流可以到达更一般的流形点。
  • 其它亮点
    {首次从理论角度分析浅层网络下扩散模型的收敛行为,揭示了扩散模型既能记忆训练样本又能生成新样本的现象,通过模拟实验验证了理论结果在正交和钝角单纯形数据上的有效性,发现随着训练样本数量增加,模型对单个样本的记忆能力下降}
  • 相关研究
    {"Denoising Diffusion Probabilistic Models (DDPM)","Score-Based Generative Modeling through Stochastic Differential Equations","Understanding diffusion models: What do we need to know about them?","Neural tangent kernel and dynamics of diffusion models","On the Convergence of Score-Based Generative Models"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论