- 简介扩散模型具有强大的表达能力和高质量的样本生成,使得它们在各个领域中都有许多新的应用和用例。对于样本生成,这些模型依赖于一个通过迭代去噪的神经网络来生成图像。然而,去噪网络架构的作用尚未得到很好的研究,大多数研究都依赖于卷积残差U-Net。在本文中,我们研究了视觉Transformer在基于扩散的生成学习中的有效性。具体而言,我们提出了一个新模型,称为Diffusion Vision Transformers(DiffiT),它由一个U形编码器和解码器的混合分层架构组成。我们引入了一种新的时间依赖性自注意模块,使得注意力层可以在去噪过程的不同阶段以一种高效的方式自适应其行为。我们还引入了潜在DiffiT,它由具有所提出的自注意力层的Transformer模型组成,用于高分辨率图像生成。我们的结果表明,DiffiT在生成高保真度图像方面非常有效,并在各种有条件和无条件的合成任务中实现了最先进的基准。在潜在空间中,DiffiT在ImageNet-256数据集上实现了新的最先进FID得分1.73。代码库:https://github.com/NVlabs/DiffiT。
- 图表
- 解决问题本文旨在研究视觉Transformer在扩散式生成学习中的有效性,提出了Diffusion Vision Transformers (DiffiT)模型,探究了视觉Transformer在去噪网络架构中的作用。
- 关键思路DiffiT模型采用了一种新的时间依赖性自注意力机制,使得注意力层能够在去噪过程的不同阶段自适应地调整其行为,从而实现高保真图像的生成。
- 其它亮点DiffiT模型在各种有条件和无条件的合成任务中均取得了最先进的性能表现,且在ImageNet-256数据集上实现了新的最佳FID分数1.73。研究者还提供了开源代码。
- 最近的相关研究包括《U-Net: Convolutional Networks for Biomedical Image Segmentation》和《Generative Models in Computer Vision: A Survey》等。


提问交流