Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model

向作者提问

NEW

简介

标准的潜在扩散模型依赖于一种复杂的三部分架构，包括独立的编码器、解码器和扩散网络，这些组件需经过多阶段训练。这种模块化设计在计算上效率低下，导致性能次优，并且阻碍了将扩散模型与视觉基础模型中常见的单网络架构相统一。我们的目标是将这三个组件融合为一个可端到端训练的单一网络。我们首先证明，一种简单的联合训练方法会因“潜在空间坍塌”而彻底失败，即扩散训练目标会干扰网络学习良好潜在表示的能力。通过建立扩散过程与基于自蒸馏的无监督学习方法之间的新颖类比，我们揭示了这种不稳定性的根本原因。基于这一洞察，我们提出了“扩散即自蒸馏”（Diffusion as Self-Distillation, DSD）这一新框架，通过对训练目标进行关键改进，从而稳定潜在空间。该方法首次实现了对单一网络的稳定端到端训练，使其能够同时学习编码、解码和执行扩散过程。DSD在ImageNet $256\times 256$ 条件生成任务上取得了卓越表现：仅使用4200万/1.18亿/2.05亿参数并在ImageNet上训练50个周期的情况下，FID指标达到13.44/6.38/4.25，且无需使用无分类器引导技术。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决标准潜在扩散模型（Latent Diffusion Models）因模块化三组件架构（编码器、解码器、扩散网络）带来的计算低效、性能次优以及难以与视觉基础模型中常见的单网络架构统一的问题。该问题在当前生成模型研究中具有重要性，尽管已有工作尝试改进训练效率和架构集成，但实现稳定端到端联合训练仍未被成功解决，因此是一个关键且尚未完全解决的挑战。
关键思路

提出将扩散过程视为自蒸馏（Diffusion as Self-Distillation, DSD），通过类比自蒸馏无监督学习机制，识别出传统联合训练中“潜在崩溃”（latent collapse）的根本原因，并据此设计新的训练目标来稳定潜在空间的学习。这一思路首次实现了编码器、解码器与扩散网络在一个单一网络中的稳定端到端训练，打破了以往多阶段、分离训练的范式，具有显著的新颖性和理论洞察力。
其它亮点

论文在ImageNet 256×256条件生成任务上取得了卓越性能：FID分别为13.44（42M参数）、6.38（118M参数）和4.25（205M参数），仅用50个训练周期且无需分类器自由引导（classifier-free guidance）。实验设计严谨，验证了不同规模下的有效性；使用标准ImageNet数据集作为基准；结果表明DSD在参数效率和训练效率方面均优于现有方法。代码已开源，极大促进后续研究。值得深入的方向包括将DSD扩展到视频生成、跨模态建模以及与其他基础模型架构（如ViT）进一步融合。
相关研究

1. 'Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding' (Imagen, 2022) 2. 'Hierarchical Text-Conditional Image Generation with CLIP Latents' (DALL-E 2, 2022) 3. 'High-Resolution Image Synthesis with Latent Diffusion Models' (LDM, 2022) 4. 'Scaling up your kernels to 3x3: Revisiting large kernel design in CNNs' (MaxVit, 2022) 5. 'Self-Distillation Amplifies Regularization in Self-Supervised Learning' (2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问