SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer

2024年03月25日
  • 简介
    Diffusion Transformer(DiT)已经成为图像生成中生成性扩散模型的新趋势。鉴于典型DiT的收敛极其缓慢,最近的突破是通过使用掩码策略来显着提高DiT的训练效率,其中还包括额外的图像内上下文学习。尽管取得了这些进展,但掩码策略仍然存在两个固有限制:(a)训练-推理差异和(b)掩码重建和生成性扩散过程之间的模糊关系,导致DiT的训练次优。在这项工作中,我们通过新颖地释放自监督区分知识来增强DiT的训练来解决这些限制。从技术上讲,我们以师生方式构建我们的DiT。师生区分对是建立在沿着相同的概率流常微分方程(PF-ODE)扩散噪声上的。我们将DiT编码器和解码器分离开来,分别处理区分和生成目标,而不是在两者上应用掩码重建损失。特别地,通过使用学生和教师DiT编码器对区分对进行编码,设计了一种新的区分损失,以鼓励自监督嵌入空间中的跨图像对齐。之后,将学生样本馈送到学生DiT解码器中执行典型的生成性扩散任务。我们在ImageNet数据集上进行了大量实验,我们的方法在训练成本和生成能力之间实现了竞争性的平衡。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在通过自监督的判别知识来提高DiT的训练效率,解决了DiT训练中存在的两个固有限制:训练-推理差异和模糊的掩模重建与生成扩散过程之间的关系,从而提高生成扩散模型的训练效率。
  • 关键思路
    本文提出了一种新的解决方案,将DiT分为教师-学生模式,通过建立在同一概率流普通微分方程(PF-ODE)沿着扩散噪声的教师-学生判别对来构建判别性损失,通过对DiT编码器和解码器进行解耦来分别处理判别性和生成性目标,从而提高DiT的训练效率。
  • 其它亮点
    本文提出的方法在ImageNet数据集上进行了广泛的实验,取得了训练成本和生成能力之间的竞争平衡。本文的亮点包括使用自监督判别知识来提高DiT的训练效率,将DiT分为教师-学生模式来解耦判别性和生成性目标,以及通过对DiT编码器和解码器进行解耦来提高DiT的训练效率。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Improved Techniques for Training Single-Image GANs》;2.《Generative Adversarial Networks》;3.《Diffusion Models Beat GANs on Image Synthesis》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问