FlexTok: Resampling Images into 1D Token Sequences of Flexible Length

2025年02月19日
  • 简介
    图像分词技术通过提供比原始像素更高效的压缩、离散表示,实现了自回归图像生成的重大进展。传统方法通常使用二维网格分词,而最近的方法如TiTok表明,一维分词可以通过消除网格冗余实现高质量的生成。然而,这些方法通常使用固定数量的分词,因此无法适应图像的内在复杂性。我们引入了FlexTok,一种将二维图像投影为可变长度有序一维分词序列的分词器。例如,一个256x256的图像可以重新采样为1到256个离散分词中的任意数量,从而层次化和语义化地压缩其信息。通过训练一个修正流模型作为解码器并使用嵌套dropout,FlexTok无论选择何种分词序列长度都能生成合理的重建图像。我们在自回归生成环境中使用简单的GPT风格Transformer评估了我们的方法。在ImageNet上,该方法在8到128个分词之间达到了FID<2,超越了TiTok,并且用远少的分词数量匹配了最先进的方法。我们进一步扩展了模型以支持文本条件图像生成,并研究了FlexTok与传统二维分词的关系。一个关键发现是,FlexTok使得下一词预测能够以从粗到细的“视觉词汇”来描述图像,并且生成的分词数量取决于生成任务的复杂性。
  • 图表
  • 解决问题
    该论文试图解决图像生成中固定数量的token无法适应不同复杂度图像的问题。这是一个新问题,特别是在1D tokenization方法逐渐兴起的背景下,如何根据图像的内在复杂性调整token的数量成为了一个重要的研究方向。
  • 关键思路
    论文的关键思路是引入FlexTok,一种可以将2D图像投影为可变长度的有序1D token序列的tokenizer。与传统方法不同,FlexTok可以根据图像的复杂度灵活调整token的数量,从而更高效地表示和生成图像。这一思路通过使用rectified flow模型作为解码器,并结合nested dropout技术,实现了对不同长度token序列的有效处理。
  • 其它亮点
    论文的亮点包括:1) 在ImageNet上,使用8到128个tokens时,FID得分低于2,显著优于TiTok并接近现有最佳方法;2) 扩展支持文本条件图像生成;3) 提出了一个从粗到细的“视觉词汇”概念,使得图像描述更加自然;4) 实验设计严谨,使用了GPT风格的Transformer进行评估;5) 研究表明token数量的选择依赖于生成任务的复杂性。此外,作者提到可能有开源代码供后续研究。
  • 相关研究
    最近在这个领域,相关研究包括《TiTok: Tokenized Image Generation with Transformers》、《Rectified Flow for Improved Diffusion Model Sampling and Training》等。这些研究主要集中在提高图像生成的质量和效率,而FlexTok则进一步探索了token数量的灵活性,为未来的研究提供了新的方向。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论