Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%

2024年06月17日
  • 简介
    在以VQGAN为代表的图像量化领域中,该过程将图像编码为离散的标记,这些标记来自于预定义大小的码书。最近的进展,特别是LLAMA 3,表明扩大码书显著提高了模型性能。然而,VQGAN及其衍生物,如VQGAN-FC(分解码)和VQGAN-EMA,仍然面临着扩大码书大小和增强码书利用率方面的挑战。例如,VQGAN-FC仅限于学习最大大小为16,384的码书,在ImageNet上保持通常低于12%的利用率。在这项工作中,我们提出了一种名为VQGAN-LC(大码书)的新型图像量化模型,它将码书大小扩展到100,000,实现了超过99%的利用率。与优化每个码书条目的先前方法不同,我们的方法从一个由预训练视觉编码器提取的100,000个特征初始化的码书开始。然后,优化集中于训练一个投影仪,将整个码书与VQGAN-LC中编码器的特征分布对齐。我们展示了我们的模型在各种任务中优于其对应物的卓越性能,包括图像重建、图像分类、使用GPT进行自回归图像生成以及使用扩散和流动式生成模型进行图像创建。代码和模型可在https://github.com/zh460045050/VQGAN-LC获得。
  • 图表
  • 解决问题
    本论文旨在解决图像量化中扩展码本大小和提高码本利用率的问题,以及优化图像重建、分类和生成等任务的性能。
  • 关键思路
    本文提出了一种名为VQGAN-LC(Large Codebook)的图像量化模型,将码本大小扩展到100,000,利用率超过99%。与以往方法不同的是,VQGAN-LC使用预训练的视觉编码器提取的10万个特征初始化码本,并优化投影器,将整个码本与编码器的特征分布对齐。
  • 其它亮点
    本文在多个任务中展示了VQGAN-LC模型的卓越性能,包括图像重建、分类、自回归图像生成和基于扩散和流的生成模型的图像创作。作者还提供了代码和模型。
  • 相关研究
    与本文相关的最新研究包括VQGAN、VQGAN-FC和VQGAN-EMA等模型,它们在扩展码本大小和提高码本利用率方面仍存在挑战。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论