When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization

Vivek Ramanujan ,
Kushal Tirumala ,
Armen Aghajanyan ,
Luke Zettlemoyer ,
Ali Farhadi
2024年12月20日
  • 简介
    当前的图像生成方法,例如潜在扩散和基于离散标记的生成,依赖于两阶段的训练方法。在第一阶段,自动编码器被训练以将图像压缩到潜在空间;在第二阶段,生成模型被训练以学习该潜在空间上的分布。大多数工作集中在独立于第二阶段来最大化第一阶段的性能,假设更好的重建总是能带来更好的生成效果。然而,我们证明这并不完全正确。即使重建性能下降,较小的第二阶段模型可以从更压缩的第一阶段潜在表示中受益,显示出压缩和生成建模能力之间存在根本性的权衡。 为了更好地优化这一权衡,我们引入了因果正则化分词(Causally Regularized Tokenization, CRT),它利用第二阶段生成建模过程的知识,在第一阶段的潜在表示中嵌入有用的归纳偏见。这种正则化使第一阶段的重建性能变差,但通过使标记更容易建模,从而提高了第二阶段的生成性能:我们能够将计算效率提高2-3倍,并且使用不到一半的每张图像标记数(256对576)以及总模型参数量仅为四分之一(7.75亿对31亿)的情况下,匹配最先进的离散自回归ImageNet生成(FID 2.18),超过了之前的最先进水平(LlamaGen)。
  • 图表
  • 解决问题
    该论文试图解决图像生成方法中,第一阶段(图像压缩到潜在空间)与第二阶段(在潜在空间上学习分布)之间的优化问题。传统做法是独立优化这两个阶段,假设更好的重建性能总是能带来更好的生成效果,但论文指出这并非严格成立,并探索了压缩与生成建模能力之间的根本权衡。
  • 关键思路
    关键思路是引入了一种称为因果正则化标记化(Causally Regularized Tokenization, CRT)的技术,它利用对第二阶段生成建模过程的知识,在第一阶段的潜在表示中嵌入有用的归纳偏见。这种方法使得第一阶段的重建性能变差,但却提高了第二阶段的生成性能,使标记更易于建模。这一思路打破了传统的两阶段独立优化模式,提出了一种新的联合优化策略。
  • 其它亮点
    实验设计方面,通过使用ImageNet数据集进行了验证,结果表明CRT可以将计算效率提高2-3倍,并且在使用更少的标记和更少的模型参数的情况下,达到了与现有最佳离散自回归ImageNet生成相当的性能(FID 2.18)。此外,这项工作开源了代码,为后续研究提供了便利。值得继续深入研究的方向包括进一步探索不同数据集上的表现,以及如何将这种方法应用于其他类型的生成任务。
  • 相关研究
    最近在这个领域中,相关的研究还包括: 1. 'Latent Diffusion Models',探讨了扩散模型在图像生成中的应用。 2. 'Discrete Representation Learning on Images',研究了离散表示学习在图像生成中的作用。 3. 'Efficient Image Generation via Vector Quantized Modeling',提出了基于矢量量化的方法来提高图像生成效率。 4. 'LlamaGen: Large-Scale Latent Variable Generative Models for High-Quality Image Synthesis',介绍了大规模潜在变量生成模型在高质量图像合成中的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论