- 简介视觉生成与理解之间的表示差异在将这些能力整合到单一框架中时造成了关键差距。为弥合这一差距,我们引入了 UniTok,这是一种离散的视觉分词器,它在生成时编码细粒度细节,同时捕捉高层次语义以促进理解。尽管最近的研究表明这些目标可能会在训练中引发损失冲突,但我们发现根本瓶颈在于离散标记的表示能力有限。我们通过引入多码本量化来解决这一问题,该方法使用多个独立子码本来划分向量量化,从而扩展潜在特征空间,同时避免因码本过大而导致的训练不稳定。我们的方法显著提高了统一离散分词器的上限,使其能够匹敌甚至超越特定领域的连续分词器。例如,在 ImageNet 数据集上,UniTok 实现了显著的 rFID 0.38(相比之下 SD-VAE 为 0.87)和零样本准确率 78.6%(相比之下 CLIP 为 76.2%)。我们的代码可在 https://github.com/FoundationVision/UniTok 获取。
- 图表
- 解决问题该论文试图解决视觉生成和理解之间的表示差异问题,这种差异在将这些能力整合到单一框架中时造成了关键的差距。这是一个需要进一步探索的问题,尤其是在离散视觉标记器如何同时处理细粒度细节和高层次语义方面。
- 关键思路论文的关键思路是引入UniTok,这是一种离散视觉标记器,它通过多码本量化(multi-codebook quantization)扩展了潜在特征空间,从而解决了由于离散标记表示能力有限而导致的训练瓶颈。相比现有的方法,这种方法不仅提高了生成任务的性能,还在理解任务上表现出色,显著提升了统一离散标记器的能力。
- 其它亮点论文展示了UniTok在多个基准测试上的优越性能,例如在ImageNet数据集上实现了显著优于现有方法的rFID分数和零样本准确率。此外,作者开源了代码,为后续研究提供了便利。值得继续深入研究的方向包括进一步优化多码本量化以及探索其在更多应用场景中的潜力。
- 最近在这个领域中,相关的研究包括《DALL·E: Creating Images from Text》、《CLIP: Connecting Text and Images》以及《VQ-VAE: A Simple Framework for Learning Discrete Representations》等。这些研究都致力于改善图像生成和理解的模型,但UniTok通过引入多码本量化提供了一种新的解决方案。
沙发等你来抢
去评论
评论
沙发等你来抢