An Image is Worth 32 Tokens for Reconstruction and Generation

2024年06月11日
  • 简介
    最近生成模型的进展突显了图像标记化在高分辨率图像的有效合成中的关键作用。标记化将图像转化为潜在表示,与直接处理像素相比,降低了计算需求,增强了生成过程的有效性和效率。以前的方法,如VQGAN,通常使用具有固定下采样因子的2D潜在网格。然而,这些2D标记化在处理图像中存在的内在冗余时面临挑战,其中相邻区域经常显示出相似性。为了克服这个问题,我们引入了基于Transformer的一维标记化器(TiTok),这是一种将图像标记化为一维潜在序列的创新方法。TiTok提供了更紧凑的潜在表示,比传统技术产生了更高效和有效的表示。例如,一个256 x 256 x 3的图像可以被减少到只有32个离散标记,这比以前的方法得到的256或1024个标记显著减少。尽管它很紧凑,但TiTok在性能上达到了与最先进方法相竞争的水平。具体来说,使用相同的生成器框架,TiTok在ImageNet 256 x 256基准测试中达到了1.97 gFID,显著优于MaskGIT基线4.21。当涉及到更高的分辨率时,TiTok的优势变得更加显著。在ImageNet 512 x 512基准测试中,TiTok不仅胜过最先进的扩散模型DiT-XL/2(gFID 2.74 vs. 3.04),而且将图像标记减少了64倍,导致生成过程快410倍。我们表现最佳的变体可以显著超过DiT-XL/2(gFID 2.13 vs. 3.04),同时仍然以74倍的速度生成高质量样本。
  • 图表
  • 解决问题
    本论文尝试解决图像生成中的tokenization问题,提出了一种新的1D Tokenizer方案。
  • 关键思路
    论文提出了一种基于Transformer的1D Tokenizer方案,相比当前的2D方案,能够更有效地处理图像中的冗余信息,生成更紧凑的latent representation,同时在高分辨率图像生成中具有更高的效率和竞争力。
  • 其它亮点
    论文使用ImageNet数据集进行实验,证明了1D Tokenizer方案的高效性和有效性,同时提供了开源代码,为后续研究提供了基础。
  • 相关研究
    与本论文相关的研究包括VQGAN和DiT-XL/2等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论