End-to-End Vision Tokenizer Tuning

2025年05月15日
  • 简介
    现有的视觉分词方法将视觉分词器的优化与下游训练分离,隐含地假设视觉分词能够在各种任务中良好泛化,例如图像生成和视觉问答。然而,针对低级重建优化的视觉分词器对需要多样化表示和语义的下游任务是不可知的。这种分离的范式引入了一个关键的不匹配问题:视觉分词的损失可能成为目标任务的表示瓶颈。例如,在给定图像中对文本分词的错误会导致识别或生成这些文本时结果不佳。为了解决这一问题,我们提出了ETT(End-to-End Tokenizer Tuning),这是一种端到端的视觉分词器微调方法,能够实现视觉分词与目标自回归任务之间的联合优化。与以往仅使用冻结视觉分词器离散索引的自回归模型不同,ETT利用了分词器码本的视觉嵌入,并通过重建和标题生成目标对视觉分词器进行端到端优化。ETT可以无缝集成到现有的训练管道中,且架构修改极少。我们的方法简单易行,无需调整所用大语言模型的原始码本或架构。大量实验表明,我们提出的端到端视觉分词器微调方法相较于冻结分词器的基线模型,在多模态理解和视觉生成任务上带来了显著的性能提升(2%-6%),同时保留了原有的重建能力。我们希望这一简单而强大的方法能够为除了图像生成和理解之外的多模态基础模型提供支持。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图解决视觉标记化与下游任务之间的不一致问题。现有的视觉标记器通常专注于低级重建,而忽略了下游任务(如图像生成和视觉问答)所需的高级语义表示需求。这种脱节可能导致下游任务的性能瓶颈,例如在文本识别或生成中的错误。
  • 关键思路
    论文提出了一种名为ETT(End-to-End Tokenizer Tuning)的方法,用于端到端优化视觉标记化与目标自回归任务之间的关系。与传统方法不同,ETT不仅使用离散索引,还利用了标记器代码本中的视觉嵌入,并通过重建和字幕目标联合优化视觉标记器。这种方法使得视觉标记器能够更好地适应下游任务的需求,同时保留其原始的重建能力。
  • 其它亮点
    实验表明,ETT在多模态理解和视觉生成任务中相比冻结标记器基线提高了2-6%的性能。此外,ETT可以轻松集成到现有训练管道中,无需调整原始代码库或架构。论文未提及具体数据集名称,但提到进行了广泛的实验验证。代码是否开源未明确说明,但研究为未来探索多模态基础模型提供了新的方向。
  • 相关研究
    近期相关研究包括:1) VQ-GAN,专注于视觉标记化与生成模型结合;2) DALL·E系列,强调文本到图像生成;3) CLIP,关注跨模态对齐;4) M6和Flamingo,探索大规模多模态预训练模型。这些研究均尝试改进视觉和语言任务的交互方式,但ETT的独特之处在于其端到端优化策略。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问