Introducing Visual Perception Token into Multimodal Large Language Model

2025年02月24日
  • 简介
    为了利用视觉信息,多模态大语言模型(MLLM)依赖其视觉编码器的感知过程。视觉感知的完整性和准确性显著影响空间推理、细粒度理解等任务的精度。然而,MLLM仍然缺乏自主控制其视觉感知过程的能力,例如选择性地回顾图像的特定区域或专注于特定对象类别的相关信息。在本工作中,我们提出了视觉感知令牌的概念,旨在赋予MLLM一种机制来控制其视觉感知过程。我们设计了两种类型的视觉感知令牌,分别称为区域选择令牌和视觉重编码令牌。MLLM自主生成这些令牌,就像它们生成文本一样,并使用这些令牌触发额外的视觉感知动作。区域选择令牌明确标识图像中需要进一步感知的特定区域,而视觉重编码令牌则利用其隐藏状态作为控制信号,引导额外的视觉感知过程。大量的实验表明,这些令牌在处理空间推理、提高细粒度理解等方面具有优势。平均而言,引入视觉感知令牌使一个2B参数模型的性能提升了23.6%,得分从0.572提高到0.708,甚至超过了7B参数模型的表现,后者提升了13.4%(从0.624)。请查看我们的仓库 https://github.com/yu-rp/VisualPerceptionToken。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决多模态大语言模型(MLLM)在视觉感知过程中缺乏自主控制能力的问题,例如无法选择性地审查图像的特定区域或专注于特定对象类别的信息。这是一个新颖的问题,旨在提高MLLM在空间推理、细粒度理解等任务上的表现。
  • 关键思路
    关键思路是引入“视觉感知令牌”(Visual Perception Token),使MLLM能够自主生成这些令牌来控制其视觉感知过程。具体来说,设计了两种类型的令牌:区域选择令牌(Region Selection Token)和视觉重编码令牌(Vision Re-Encoding Token)。前者用于明确标识图像中需要进一步感知的特定区域,后者则通过其隐藏状态作为控制信号来引导额外的视觉感知过程。这一思路相比现有研究更具创新性,因为它赋予了MLLM自主控制视觉感知的能力。
  • 其它亮点
    论文的亮点包括:1) 提出了视觉感知令牌的概念,并详细设计了两种类型的令牌;2) 实验表明,使用这些令牌可以显著提升MLLM在各种任务上的性能,例如在2B参数模型上平均提升了23.6%的表现;3) 开源代码已发布在GitHub上,便于后续研究者复现和改进;4) 论文还展示了较小参数量的模型在使用这些令牌后,甚至能超越更大参数量的模型。未来值得继续深入研究的方向包括优化令牌生成机制以及探索更多类型的视觉感知令牌。
  • 相关研究
    最近在这个领域中,相关研究还包括:1)《Improving Vision-Language Models with Region-of-Interest Attention》;2)《Enhancing Multimodal Learning through Dynamic Visual Feature Extraction》;3)《Adaptive Visual Perception for Fine-grained Image Understanding》等。这些研究主要集中在如何通过改进视觉特征提取、注意力机制等方式来增强多模态模型的表现。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问