Dynamic Diffusion Transformer

2024年10月04日
  • 简介
    Diffusion Transformer(DiT)是一种新兴的图像生成扩散模型,已经展示了卓越的性能,但是存在重大的计算成本问题。我们的研究发现,这些成本来自于静态推理范式,这不可避免地在某些扩散时间步和空间区域中引入了冗余计算。为了解决这种低效率,我们提出了Dynamic Diffusion Transformer(DyDiT)架构,在生成过程中动态调整其计算,包括时间步和空间维度。具体地,我们引入了一种基于时间步的动态宽度(TDW)方法,该方法根据生成的时间步骤调整模型的宽度。此外,我们设计了一种基于空间的动态令牌(SDT)策略,以避免在不必要的空间位置进行冗余计算。在各种数据集和不同大小的模型上进行了大量实验,验证了DyDiT的优越性。值得注意的是,我们的方法只需要额外的不到3%的微调迭代次数,就可以将DiT-XL的FLOPs降低51%,加速生成1.73倍,并在ImageNet上实现了竞争性的FID分数2.07。该代码公开可用于https://github.com/NUS-HPC-AI-Lab/Dynamic-Diffusion-Transformer。
  • 作者讲解·1
  • 图表
  • 解决问题
    DyDiT试图解决DiT在图像生成中的高计算成本问题,这个问题是否是新问题没有明确说明。
  • 关键思路
    DyDiT提出了两个关键思路:Timestep-wise Dynamic Width (TDW)和Spatial-wise Dynamic Token (SDT),分别在时间步和空间维度上动态调整计算,从而避免不必要的计算。
  • 其它亮点
    论文在多个数据集和不同规模的模型上进行了广泛实验,证明了DyDiT的优越性。在ImageNet上,仅需要不到3%的微调迭代,DyDiT将DiT-XL的FLOPs降低了51%,加速了1.73倍,并且获得了2.07的竞争性FID分数。代码公开在GitHub上。
  • 相关研究
    在图像生成领域,还有一些相关研究,例如StyleGAN、BigGAN、ViTGAN等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问