Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

本文探索了一类新的基于transformer架构的扩散模型。训练图像的潜在扩散模型，用一个在潜在块上操作的transformer取代常用的U-Net骨干。通过Gflops测量的前向传递复杂性来分析扩散transformer (DiTs)的可扩展性。具有较高Gflops的DiTs——通过增加transformer深度/宽度或增加输入tokens 数量——始终具有较低的FID。除了具有良好的可扩展性，最大的DiT-XL/2模型在类条件ImageNet 512x512和256x256基准上的性能优于所有先验的扩散模型，在后者上实现了最先进的FID 2.27。