MaskBit: Embedding-free Image Generation via Bit Tokens

2024年09月24日
  • 简介
    遮蔽变换器模型已成为生成特定类别图像的一种有力替代方法,相对于扩散模型更具吸引力。这些模型通常包括两个阶段——初始的VQGAN模型用于在潜在空间和图像空间之间进行过渡,以及随后的变换器模型用于在潜在空间中生成图像——这些框架为图像合成提供了有前途的途径。在本研究中,我们提出了两个主要贡献:首先,对VQGAN进行了经验性和系统性的研究,从而推出了现代化的VQGAN模型。其次,我们提出了一种新颖的基于比特标记的无嵌入式生成网络,直接操作具有丰富语义的标记的二进制量化表示。第一个贡献提供了一个透明、可重现且高性能的VQGAN模型,提高了可访问性,与当前最先进的方法的性能相匹配,同时揭示了以前未披露的细节。第二个贡献表明,使用比特标记进行无嵌入式图像生成可以在ImageNet 256x256基准测试中实现新的最先进FID为1.52,生成器模型仅有305M个参数。
  • 图表
  • 解决问题
    本论文旨在提出一种基于Masked Transformer模型的图像生成方法,解决图像生成中的类条件问题。
  • 关键思路
    本论文的关键思路是结合VQGAN模型和二进制量化的bit tokens,提出一种嵌入式自由的图像生成网络。
  • 其它亮点
    该论文提出的方法在ImageNet 256x256数据集上取得了FID为1.52的最优结果,并且使用的生成器模型只有305M参数。此外,论文还对VQGAN模型进行了系统性的分析,提出了一种现代化的VQGAN模型。
  • 相关研究
    近期相关研究包括:《Generative Adversarial Networks》、《Diffusion Models Beat GANs on Image Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论