VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

2025年07月17日
  • 简介
    最近,视觉-语言模型(VLM)通过增加视觉标记的数量提升了性能,这些视觉标记的长度通常远超文本标记。然而我们发现,大多数现实世界的应用场景并不需要如此大量的视觉标记。虽然在一小部分与OCR相关的任务中,使用较低数量的视觉标记会导致性能显著下降,但在大多数其他通用视觉问答(VQA)任务中,模型仅使用1/4分辨率的图像仍能保持良好的表现。因此,我们提出根据样本内容动态地以不同分辨率进行处理,并提出了一种新的视觉标记压缩范式——VisionThink。该方法从一张下采样图像开始,智能判断该分辨率是否足以解决问题;若不足以解决问题,则输出一个特殊标记来请求更高分辨率的图像。相比现有的高效VLM方法采用固定的剪枝比例或阈值来压缩标记,VisionThink能够根据每个样本的具体情况自主决定是否压缩标记。因此,该方法在OCR相关任务中展现出强大的细粒度视觉理解能力,同时在较简单的任务中大幅节省了视觉标记的使用。我们采用了强化学习方法,并提出了“LLM-as-Judge”策略,成功将强化学习应用于通用VQA任务。此外,我们精心设计了奖励函数和惩罚机制,以实现稳定且合理的图像调用比例。大量实验结果表明,我们的方法在性能、效率和有效性方面均具有显著优势。我们的代码已公开,地址为 https://github.com/dvlab-research/VisionThink。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决视觉-语言模型(VLMs)在处理视觉信息时通常需要大量视觉token的问题。大多数现实场景并不需要如此高的视觉token数量,而现有的高效VLM方法往往采用固定的压缩策略,无法根据不同样本动态调整,导致在OCR相关任务中性能下降显著。
  • 关键思路
    提出一种新的视觉token压缩范式VisionThink,通过动态调整图像分辨率来处理不同的样本。模型首先使用低分辨率图像进行推理,若判断不足以解决问题,则输出特殊token请求更高分辨率图像。与现有方法相比,该方法能够根据具体任务需求自适应地决定是否压缩视觉token,兼顾了效率和准确性。
  • 其它亮点
    1. 在OCR相关任务上表现出色,同时在大多数通用VQA任务中显著减少视觉token数量。 2. 采用强化学习框架,并提出LLM-as-Judge策略,使RL能有效应用于通用VQA任务。 3. 设计了奖励函数和惩罚机制,以控制图像重采样调用的比例,保证系统稳定性和合理性。 4. 论文已开源代码,便于后续研究和复现实验结果。
  • 相关研究
    1. Efficient Vision-Language Pre-training with Dynamic Token Compression 2. Fuyu: A Performant and Efficient Vision Language Model for General Purpose Reasoning 3. Reducing Computational Overhead in Vision-and-Language Models through Adaptive Inference 4. Token-Level Adaptive Computation for Efficient Vision-Language Understanding
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问