- 简介尽管扩散模型在图像生成方面取得了成功,但它们可能会记忆训练数据,从而引发严重的隐私和版权问题。虽然先前的研究试图描述、检测并缓解这种记忆现象,但关于其为何以及如何发生的根本问题仍未得到解决。本文中,我们重新审视了扩散与去噪过程,并通过分析潜在空间的动态特性来回答“扩散模型是如何记忆的?”这一问题。我们发现,记忆现象源于早期去噪阶段对训练样本的过度估计,这种过度估计会降低生成多样性,导致去噪轨迹坍缩,并加速向被记忆图像的收敛。具体而言:(i)记忆现象不能仅由过拟合来解释,因为在记忆发生时,由于无分类器引导会放大预测结果并引发过度估计,训练损失反而更大;(ii)被记忆的提示词会将训练图像注入到噪声预测中,迫使潜在轨迹收敛,并引导去噪过程朝向其对应的训练样本;(iii)对中间潜在表示的分解揭示了初始随机性如何迅速被抑制,并被记忆内容所取代,且与理论去噪调度的偏差几乎完全与记忆程度相关。综上所述,这些结果表明,早期的过度估计是扩散模型记忆现象的核心机制。
-
- 图表
- 解决问题扩散模型在图像生成中表现出色,但存在记忆训练数据的问题,引发隐私和版权风险。论文旨在探究扩散模型为何以及如何记忆训练数据,这是一个尚未被充分理解的根本性问题。
- 关键思路记忆化并非单纯由过拟合引起,而是在去噪早期阶段对训练样本的过度估计所致。这种过度估计源于无分类器引导放大预测,导致潜在轨迹坍缩并加速收敛到特定训练图像。关键机制是:记忆化的提示词将真实训练图像注入噪声预测,抑制初始随机性,使潜在路径偏离理论去噪调度,从而实现记忆。
- 其它亮点作者通过分析潜在空间动态揭示了记忆化的演化过程;提出了潜在表示的分解方法,发现初始随机性迅速被记忆内容取代;实验显示偏离理论去噪调度的程度与记忆严重程度几乎完全相关;研究未依赖特定数据集,基于标准扩散框架进行分析;代码是否开源未在摘要中提及,但机制分析为后续防御方法提供了可验证路径。
- 1. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 2. Textual Inversion: Personalizing Text-to-Image Models with Minimal Effort 3. An Empirical Study of Privacy in Diffusion Model Generation 4. On the Memorization Behavior of Generative Models 5. Diffusion Models Can Be Easily Hijacked to Generate Private Training Data
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流