Dynamic Diffusion Transformer

简介

Diffusion Transformer（DiT）是一种新兴的图像生成扩散模型，已经展示了卓越的性能，但是存在重大的计算成本问题。我们的研究发现，这些成本来自于静态推理范式，这不可避免地在某些扩散时间步和空间区域中引入了冗余计算。为了解决这种低效率，我们提出了Dynamic Diffusion Transformer（DyDiT）架构，在生成过程中动态调整其计算，包括时间步和空间维度。具体地，我们引入了一种基于时间步的动态宽度（TDW）方法，该方法根据生成的时间步骤调整模型的宽度。此外，我们设计了一种基于空间的动态令牌（SDT）策略，以避免在不必要的空间位置进行冗余计算。在各种数据集和不同大小的模型上进行了大量实验，验证了DyDiT的优越性。值得注意的是，我们的方法只需要额外的不到3%的微调迭代次数，就可以将DiT-XL的FLOPs降低51％，加速生成1.73倍，并在ImageNet上实现了竞争性的FID分数2.07。该代码公开可用于https://github.com/NUS-HPC-AI-Lab/Dynamic-Diffusion-Transformer。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

DyDiT试图解决DiT在图像生成中的高计算成本问题，这个问题是否是新问题没有明确说明。
关键思路

DyDiT提出了两个关键思路：Timestep-wise Dynamic Width (TDW)和Spatial-wise Dynamic Token (SDT)，分别在时间步和空间维度上动态调整计算，从而避免不必要的计算。
其它亮点

论文在多个数据集和不同规模的模型上进行了广泛实验，证明了DyDiT的优越性。在ImageNet上，仅需要不到3%的微调迭代，DyDiT将DiT-XL的FLOPs降低了51%，加速了1.73倍，并且获得了2.07的竞争性FID分数。代码公开在GitHub上。
相关研究

在图像生成领域，还有一些相关研究，例如StyleGAN、BigGAN、ViTGAN等。

提问交流

提问交流