SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer

向作者提问

NEW

简介

Diffusion Transformer（DiT）已经成为图像生成中生成性扩散模型的新趋势。鉴于典型DiT的收敛极其缓慢，最近的突破是通过使用掩码策略来显着提高DiT的训练效率，其中还包括额外的图像内上下文学习。尽管取得了这些进展，但掩码策略仍然存在两个固有限制：（a）训练-推理差异和（b）掩码重建和生成性扩散过程之间的模糊关系，导致DiT的训练次优。在这项工作中，我们通过新颖地释放自监督区分知识来增强DiT的训练来解决这些限制。从技术上讲，我们以师生方式构建我们的DiT。师生区分对是建立在沿着相同的概率流常微分方程（PF-ODE）扩散噪声上的。我们将DiT编码器和解码器分离开来，分别处理区分和生成目标，而不是在两者上应用掩码重建损失。特别地，通过使用学生和教师DiT编码器对区分对进行编码，设计了一种新的区分损失，以鼓励自监督嵌入空间中的跨图像对齐。之后，将学生样本馈送到学生DiT解码器中执行典型的生成性扩散任务。我们在ImageNet数据集上进行了大量实验，我们的方法在训练成本和生成能力之间实现了竞争性的平衡。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过自监督的判别知识来提高DiT的训练效率，解决了DiT训练中存在的两个固有限制：训练-推理差异和模糊的掩模重建与生成扩散过程之间的关系，从而提高生成扩散模型的训练效率。
关键思路

本文提出了一种新的解决方案，将DiT分为教师-学生模式，通过建立在同一概率流普通微分方程（PF-ODE）沿着扩散噪声的教师-学生判别对来构建判别性损失，通过对DiT编码器和解码器进行解耦来分别处理判别性和生成性目标，从而提高DiT的训练效率。
其它亮点

本文提出的方法在ImageNet数据集上进行了广泛的实验，取得了训练成本和生成能力之间的竞争平衡。本文的亮点包括使用自监督判别知识来提高DiT的训练效率，将DiT分为教师-学生模式来解耦判别性和生成性目标，以及通过对DiT编码器和解码器进行解耦来提高DiT的训练效率。
相关研究

在这个领域中，最近的相关研究包括：1.《Improved Techniques for Training Single-Image GANs》；2.《Generative Adversarial Networks》；3.《Diffusion Models Beat GANs on Image Synthesis》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问