Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction

简介

几乎所有最近的图像合成方法，包括扩散、掩码令牌预测和下一个令牌预测，都使用了Transformer网络架构。尽管有这个共同的骨干，但这些方法如何影响性能和效率还没有直接的计算控制比较。我们通过FLOPs计算预算的视角分析了每种方法的可扩展性。我们发现，在提示跟随方面，以下一个令牌预测为首的令牌预测方法明显优于扩散。在图像质量方面，虽然下一个令牌预测最初表现更好，但扩散的扩展趋势表明它最终会与下一个令牌预测相匹配。我们比较了每种方法的推理计算效率，并发现下一个令牌预测是迄今为止最有效的。根据我们的发现，我们建议针对图像质量和低延迟的应用采用扩散；当提示跟随或吞吐量更重要时，则采用下一个令牌预测。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在比较Transformer网络架构在图像合成中不同方法的性能和效率，特别是通过FLOPs计算每种方法的可扩展性。
关键思路

本论文比较了基于Transformer网络架构的图像合成方法：扩散、掩码-标记预测和下一个标记预测，并发现下一个标记预测是最有效的方法。此外，论文还推荐：如果注重图像质量和低延迟，则应选择扩散方法；如果注重提示后续或吞吐量，则应选择下一个标记预测。
其它亮点

论文使用FLOPs计算每种方法的可扩展性，并比较了它们在图像质量和推理计算效率方面的性能。实验使用了多个数据集，并提供了开源代码。值得进一步研究的是，如何进一步提高下一个标记预测的图像质量。
相关研究

最近的相关研究包括：GAN、VAE和PixelCNN等。

Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction

提问交流

提问交流