- 简介扩散模型在生成高质量、多样化样本方面表现出色,但在过度拟合训练目标时存在记忆化训练数据的风险。本文从表征学习的角度分析了扩散模型中记忆化与泛化的区别。通过研究一个两层带ReLU激活的去噪自编码器(DAE),我们证明:(i)记忆化对应于模型将原始训练样本直接存储于编码和解码所用的学习权重中,从而产生局部化的“尖峰状”表征;而(ii)泛化则出现在模型捕捉到数据的局部统计特征时,生成更为“均衡”的表征。此外,我们在真实世界中的无条件生成和文本到图像扩散模型上验证了这些理论发现,表明类似的表征结构同样出现在具有重要实际意义的深度生成模型中。基于上述洞察,我们提出了一种基于表征的记忆化检测方法,以及一种无需重新训练的编辑技术,可通过表征引导实现精确控制。综上所述,我们的研究结果强调,学习良好的表征对于实现新颖且有意义的生成建模至关重要。
-
- 图表
- 解决问题论文探讨扩散模型在训练过程中可能出现的记忆化(memorization)问题,即模型过度拟合训练数据并直接复制样本,而非学习数据的底层结构以实现泛化。该问题在生成模型中尤为重要,因为记忆化会损害生成结果的多样性和创造性,但目前对记忆化与泛化在表示层面上的本质区别缺乏理论理解。
- 关键思路作者提出从表示学习的角度分析扩散模型中的记忆化与泛化现象。通过研究两层ReLU去噪自编码器(DAE),证明记忆化对应于模型权重中显式存储原始训练样本,导致局部尖锐的‘尖峰状’表示;而泛化则源于捕捉局部数据统计特征,形成分布更均匀的‘平衡’表示。这一理论洞察被扩展到实际的扩散模型中,并用于设计无需重新训练的记忆化检测方法和基于表示引导的编辑技术。
- 其它亮点论文通过理论分析与实证验证相结合的方式,在合成模型和真实扩散模型(包括无条件图像生成和文本到图像生成模型如Stable Diffusion)上验证了表示结构的差异。实验展示了可通过分析隐空间表示来识别记忆化样本,并提出了一个训练免费的编辑方法——通过操纵表示实现精确的内容控制。代码已开源,为后续研究提供了可复现的基础。未来方向包括将表示引导机制集成到扩散模型训练中以抑制记忆化,并拓展至其他模态。
- 1. Understanding Deep Learning Requires Rethinking Generalization 2. Memorization in Trained Neural Networks: A Tale of Two Datasets 3. On the Role of Sparsity in Structured Prediction 4. Diffusion Models as Plug-and-Play Priors 5. Text-to-Image Diffusion Models as Data Engines
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流