Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis

2024年06月08日
  • 简介
    图像合成领域目前因扩散模型的进展而蓬勃发展。虽然扩散模型取得了成功,但它们的计算强度促使人们寻求更高效的替代方案。作为代表性作品,非自回归变换器(NAT)因其快速生成而受到认可。然而,这些模型的一个主要缺点是它们与扩散模型相比表现较差。在本文中,我们旨在通过重新审视其训练和推理策略的设计来重新评估NAT的全部潜力。具体而言,我们确定了适当配置这些策略的复杂性,并指出现有启发式驱动设计中可能存在的次优性。鉴于此,我们提出通过直接在自动框架中解决最优策略来超越现有方法。所得到的方法名为AutoNAT,显著推进了NAT的性能边界,并能够以大大降低的推理成本与最新的扩散模型相媲美。AutoNAT的有效性在四个基准数据集上得到验证,即ImageNet-256&512、MS-COCO和CC3M。我们的代码可在https://github.com/LeapLabTHU/ImprovedNAT上找到。
  • 图表
  • 解决问题
    论文旨在重新评估非自回归Transformer(NAT)的潜力,通过重新设计其训练和推理策略,提高其性能。
  • 关键思路
    通过直接在自动框架中解决最优策略,提高NAT的性能,使其能够在显著降低推理成本的情况下与最新的扩散模型相媲美。
  • 其它亮点
    论文提出的方法名为AutoNAT,能够在四个基准数据集上有效验证,即ImageNet-256和512,MS-COCO和CC3M。AutoNAT的代码已在GitHub上开源。
  • 相关研究
    最近在这个领域中,也有研究关注NAT的性能提升,例如《Non-Autoregressive Transformer for Learning Discrete Sequence Representation》。同时,扩散模型也是当前图像合成领域的热门研究方向,例如《Improved Techniques for Training Score-Based Generative Models》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论