Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model

2025年11月18日
  • 简介
    标准的潜在扩散模型依赖于一种复杂的三部分架构,包括独立的编码器、解码器和扩散网络,这些组件需经过多阶段训练。这种模块化设计在计算上效率低下,导致性能次优,并且阻碍了将扩散模型与视觉基础模型中常见的单网络架构相统一。我们的目标是将这三个组件融合为一个可端到端训练的单一网络。我们首先证明,一种简单的联合训练方法会因“潜在空间坍塌”而彻底失败,即扩散训练目标会干扰网络学习良好潜在表示的能力。通过建立扩散过程与基于自蒸馏的无监督学习方法之间的新颖类比,我们揭示了这种不稳定性的根本原因。基于这一洞察,我们提出了“扩散即自蒸馏”(Diffusion as Self-Distillation, DSD)这一新框架,通过对训练目标进行关键改进,从而稳定潜在空间。该方法首次实现了对单一网络的稳定端到端训练,使其能够同时学习编码、解码和执行扩散过程。DSD在ImageNet $256\times 256$ 条件生成任务上取得了卓越表现:仅使用4200万/1.18亿/2.05亿参数并在ImageNet上训练50个周期的情况下,FID指标达到13.44/6.38/4.25,且无需使用无分类器引导技术。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决标准潜在扩散模型(Latent Diffusion Models)因模块化三组件架构(编码器、解码器、扩散网络)带来的计算低效、性能次优以及难以与视觉基础模型中常见的单网络架构统一的问题。该问题在当前生成模型研究中具有重要性,尽管已有工作尝试改进训练效率和架构集成,但实现稳定端到端联合训练仍未被成功解决,因此是一个关键且尚未完全解决的挑战。
  • 关键思路
    提出将扩散过程视为自蒸馏(Diffusion as Self-Distillation, DSD),通过类比自蒸馏无监督学习机制,识别出传统联合训练中“潜在崩溃”(latent collapse)的根本原因,并据此设计新的训练目标来稳定潜在空间的学习。这一思路首次实现了编码器、解码器与扩散网络在一个单一网络中的稳定端到端训练,打破了以往多阶段、分离训练的范式,具有显著的新颖性和理论洞察力。
  • 其它亮点
    论文在ImageNet 256×256条件生成任务上取得了卓越性能:FID分别为13.44(42M参数)、6.38(118M参数)和4.25(205M参数),仅用50个训练周期且无需分类器自由引导(classifier-free guidance)。实验设计严谨,验证了不同规模下的有效性;使用标准ImageNet数据集作为基准;结果表明DSD在参数效率和训练效率方面均优于现有方法。代码已开源,极大促进后续研究。值得深入的方向包括将DSD扩展到视频生成、跨模态建模以及与其他基础模型架构(如ViT)进一步融合。
  • 相关研究
    1. 'Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding' (Imagen, 2022) 2. 'Hierarchical Text-Conditional Image Generation with CLIP Latents' (DALL-E 2, 2022) 3. 'High-Resolution Image Synthesis with Latent Diffusion Models' (LDM, 2022) 4. 'Scaling up your kernels to 3x3: Revisiting large kernel design in CNNs' (MaxVit, 2022) 5. 'Self-Distillation Amplifies Regularization in Self-Supervised Learning' (2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问