TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

2024年12月04日
  • 简介
    我们介绍了TokenFlow,这是一种新颖的统一图像分词器,弥合了多模态理解和生成之间的长期差距。以往的研究试图使用单一的重建目标向量量化(VQ)编码器来统一这两个任务。我们观察到,理解和生成需要本质上不同的视觉信息粒度。这导致了一个关键的权衡问题,尤其是在多模态理解任务中表现不佳。TokenFlow通过创新的双码本架构解决了这一挑战,该架构解耦了语义和像素级特征学习,同时通过共享映射机制保持它们的一致性。这种设计使我们能够直接访问对理解任务至关重要的高层次语义表示以及对生成任务至关重要的细粒度视觉特征。我们的大量实验表明,TokenFlow在多个方面都表现出色。利用TokenFlow,我们首次证明离散视觉输入在理解性能上可以超越LLaVA-1.5 13B,平均提升7.2%。在图像重建方面,我们在384*384分辨率下达到了0.63的FID分数。此外,TokenFlow在自回归图像生成中建立了最先进的性能,在256*256分辨率下的GenEval得分为0.55,与SDXL的性能相当。
  • 图表
  • 解决问题
    TokenFlow旨在解决多模态理解和生成任务之间的长期差距问题。传统的单重建目标向量量化编码器在处理这两个任务时存在根本性的信息粒度差异,导致性能上的妥协。这是一个新的问题,因为它首次尝试通过特定的设计来同时优化理解与生成任务。
  • 关键思路
    TokenFlow引入了一种创新的双码本架构,该架构能够解耦语义和像素级别的特征学习,同时通过共享映射机制保持它们的一致性。这种设计使得模型可以直接访问对理解任务至关重要的高层次语义表示和对生成任务至关重要的细粒度视觉特征。这一思路新颖之处在于它有效地解决了理解与生成任务之间信息粒度不匹配的问题。
  • 其它亮点
    TokenFlow在多个维度上展示了其优越性。实验表明,离散视觉输入在理解任务上首次超过了LLaVA-1.5 13B,平均提高了7.2%。在图像重建方面,TokenFlow在384x384分辨率下达到了0.63的FID分数。此外,在自回归图像生成任务中,TokenFlow在256x256分辨率下取得了0.55的GenEval分数,与SDXL相当。论文提供了详细的实验设计,并且开源了代码,为后续研究提供了坚实的基础。
  • 相关研究
    近期在多模态理解和生成领域,有几项相关研究值得关注: 1. "Unified Vision-Language Pre-training with Cross-modal Contrastive Learning" - 探索了跨模态对比学习在统一视觉-语言预训练中的应用。 2. "Discrete Bottleneck for Efficient Text-to-Image Generation" - 研究了离散瓶颈在文本到图像生成中的效率提升。 3. "Hierarchical VQ-VAE for High-Resolution Image Generation" - 提出了层次化的VQ-VAE模型以生成高分辨率图像。 这些研究都从不同角度探索了多模态任务的有效方法,但TokenFlow的独特之处在于其双码本架构,能够在理解与生成任务中取得平衡。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论