Matryoshka Query Transformer for Large Vision-Language Models

简介

大型视觉-语言模型（LVLM）通常将图像编码为固定数量的视觉令牌（例如576个），并使用语言模型处理这些令牌。尽管其表现强劲，但LVLM在适应不同的计算限制方面面临挑战。这引出了一个问题：我们能否实现在不同任务和计算资源下适应不同数量的视觉令牌的灵活性？我们的回答是肯定的。受到Matryoshka表示学习的启发，我们引入了Matryoshka查询变换器（MQT），能够在推理过程中将图像编码为m个视觉令牌，其中m可以是任何预定义最大值以内的数字。这是通过使用具有M个潜在查询令牌的查询变换器来压缩视觉嵌入实现的。在每个训练步骤中，我们随机选择m <= M个潜在查询令牌，并仅使用这些前m个令牌来训练模型，丢弃其余的令牌。将MQT与LLaVA相结合，我们仅训练一次单个模型，并在保持与训练每个令牌数独立模型相似或更好性能的同时，在推理时灵活且大幅度地减少了视觉令牌的数量。我们的模型MQT-LLAVA使用最大256个令牌（而不是LLaVA固定的576个令牌）在11个基准测试中与LLaVA-1.5的性能相匹配。将令牌数量减少到16个（TFLOPs减少8倍）仅在MMBench上牺牲了2.4个点的性能。在某些任务（如ScienceQA和MMMU）中，我们甚至可以将其减少到仅使用2个视觉令牌，每个任务的性能下降仅为3％和6％。我们对视觉令牌数量与计算成本之间的权衡进行的探索，有助于未来的研究实现双赢。
图表
解决问题

如何在不同的计算资源限制下实现对图像的灵活编码，以适应不同的任务需求和计算资源？
关键思路

通过引入Matryoshka Query Transformer（MQT）的思想，使用具有M个潜在查询令牌的查询变换器来压缩视觉嵌入，从而在推理时将图像编码为m个视觉令牌，其中m可以是任何小于或等于预定义最大值的数字。在每个训练步骤中，随机选择m <= M个潜在查询令牌，并仅使用这些第一个m个令牌进行训练，而丢弃其余的。通过将MQT与LLaVA相结合，一次训练一个模型，可以在保持与独立模型相似或更好的性能的同时，灵活地大大减少推理时的视觉令牌数量。
其它亮点

通过将MQT与LLaVA相结合，可以在11个基准测试中使用最多256个令牌而不是LLaVA的固定576个令牌，同时保持相似或更好的性能。当将令牌数量减少到16个（8倍的TFLOPs）时，仅在MMBench上牺牲2.4个点的性能。在某些任务（如ScienceQA和MMMU）中，我们甚至可以将视觉令牌数量降至仅2个，每个性能下降仅为3％和6％。这种通过视觉令牌数量的减少来平衡准确性和计算成本的探索，有助于未来的研究实现最佳效果。
相关研究

最近的相关研究包括：《Large Scale Learning with Noisy Labels》、《Learning to Learn with Feedback and Local Plasticity》、《A Simple Framework for Contrastive Learning of Visual Representations》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论