VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

向作者提问

NEW

简介

最近，视觉-语言模型（VLM）通过增加视觉标记的数量提升了性能，这些视觉标记的长度通常远超文本标记。然而我们发现，大多数现实世界的应用场景并不需要如此大量的视觉标记。虽然在一小部分与OCR相关的任务中，使用较低数量的视觉标记会导致性能显著下降，但在大多数其他通用视觉问答（VQA）任务中，模型仅使用1/4分辨率的图像仍能保持良好的表现。因此，我们提出根据样本内容动态地以不同分辨率进行处理，并提出了一种新的视觉标记压缩范式——VisionThink。该方法从一张下采样图像开始，智能判断该分辨率是否足以解决问题；若不足以解决问题，则输出一个特殊标记来请求更高分辨率的图像。相比现有的高效VLM方法采用固定的剪枝比例或阈值来压缩标记，VisionThink能够根据每个样本的具体情况自主决定是否压缩标记。因此，该方法在OCR相关任务中展现出强大的细粒度视觉理解能力，同时在较简单的任务中大幅节省了视觉标记的使用。我们采用了强化学习方法，并提出了“LLM-as-Judge”策略，成功将强化学习应用于通用VQA任务。此外，我们精心设计了奖励函数和惩罚机制，以实现稳定且合理的图像调用比例。大量实验结果表明，我们的方法在性能、效率和有效性方面均具有显著优势。我们的代码已公开，地址为 https://github.com/dvlab-research/VisionThink。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决视觉-语言模型（VLMs）在处理视觉信息时通常需要大量视觉token的问题。大多数现实场景并不需要如此高的视觉token数量，而现有的高效VLM方法往往采用固定的压缩策略，无法根据不同样本动态调整，导致在OCR相关任务中性能下降显著。
关键思路

提出一种新的视觉token压缩范式VisionThink，通过动态调整图像分辨率来处理不同的样本。模型首先使用低分辨率图像进行推理，若判断不足以解决问题，则输出特殊token请求更高分辨率图像。与现有方法相比，该方法能够根据具体任务需求自适应地决定是否压缩视觉token，兼顾了效率和准确性。
其它亮点

1. 在OCR相关任务上表现出色，同时在大多数通用VQA任务中显著减少视觉token数量。 2. 采用强化学习框架，并提出LLM-as-Judge策略，使RL能有效应用于通用VQA任务。 3. 设计了奖励函数和惩罚机制，以控制图像重采样调用的比例，保证系统稳定性和合理性。 4. 论文已开源代码，便于后续研究和复现实验结果。
相关研究

1. Efficient Vision-Language Pre-training with Dynamic Token Compression 2. Fuyu: A Performant and Efficient Vision Language Model for General Purpose Reasoning 3. Reducing Computational Overhead in Vision-and-Language Models through Adaptive Inference 4. Token-Level Adaptive Computation for Efficient Vision-Language Understanding

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问