Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction

2024年05月21日
  • 简介
    几乎所有最近的图像合成方法,包括扩散、掩码令牌预测和下一个令牌预测,都使用了Transformer网络架构。尽管有这个共同的骨干,但这些方法如何影响性能和效率还没有直接的计算控制比较。我们通过FLOPs计算预算的视角分析了每种方法的可扩展性。我们发现,在提示跟随方面,以下一个令牌预测为首的令牌预测方法明显优于扩散。在图像质量方面,虽然下一个令牌预测最初表现更好,但扩散的扩展趋势表明它最终会与下一个令牌预测相匹配。我们比较了每种方法的推理计算效率,并发现下一个令牌预测是迄今为止最有效的。根据我们的发现,我们建议针对图像质量和低延迟的应用采用扩散;当提示跟随或吞吐量更重要时,则采用下一个令牌预测。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在比较Transformer网络架构在图像合成中不同方法的性能和效率,特别是通过FLOPs计算每种方法的可扩展性。
  • 关键思路
    本论文比较了基于Transformer网络架构的图像合成方法:扩散、掩码-标记预测和下一个标记预测,并发现下一个标记预测是最有效的方法。此外,论文还推荐:如果注重图像质量和低延迟,则应选择扩散方法;如果注重提示后续或吞吐量,则应选择下一个标记预测。
  • 其它亮点
    论文使用FLOPs计算每种方法的可扩展性,并比较了它们在图像质量和推理计算效率方面的性能。实验使用了多个数据集,并提供了开源代码。值得进一步研究的是,如何进一步提高下一个标记预测的图像质量。
  • 相关研究
    最近的相关研究包括:GAN、VAE和PixelCNN等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问