OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

向作者提问

NEW

简介

尽管人类能够灵活运用交互式视觉认知来解决复杂问题，但让大型视觉-语言模型（LVLMs）学会以类似适应性的方式使用视觉工具仍充满挑战。一个主要障碍在于目前缺乏标准化的基础设施，这限制了多样化工具的整合、丰富交互数据的生成以及稳健智能体的有效训练。为了解决这些问题，我们提出了 OpenThinkIMG，这是首个开源的、全面的端到端框架，专为增强工具使用的 LVLMs 设计。该框架具备标准化的视觉工具接口、可扩展的策略初始化轨迹生成功能，以及灵活的训练环境。此外，考虑到仅基于静态演示进行监督微调（SFT）对动态工具调用的策略泛化能力有限，我们提出了一种新颖的强化学习（RL）框架 V-ToolRL，用于训练 LVLMs 学习自适应策略以调用外部视觉工具。V-ToolRL 使 LVLMs 能够通过直接优化任务成功率并利用工具交互反馈，自主发现最优的工具使用策略。我们在具有挑战性的图表推理任务上对 V-ToolRL 进行了实证验证。基于通义千问 Qwen2-VL-2B 训练的强化学习智能体显著优于其 SFT 初始化版本（+28.83 分），并且平均超越了如 Taco 和 CogCom 等已有的监督工具学习基线方法 +12.7 分。值得注意的是，它还超过了包括 GPT-4.1 在内的知名闭源模型，准确率高出 +8.68 分。我们希望 OpenThinkIMG 能够成为推动动态、工具增强型视觉推理发展的基础框架，帮助社区开发出真正能够“借助图像思考”的人工智能智能体。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决如何让大型视觉语言模型（LVLMs）像人类一样通过交互式视觉认知解决复杂问题。当前的主要挑战在于缺乏标准化的基础设施，这限制了多样化工具的集成、丰富交互数据的生成以及鲁棒代理的有效训练。
关键思路

论文提出了OpenThinkIMG框架和V-ToolRL方法。OpenThinkIMG是首个开源端到端框架，提供标准化视觉工具接口、可扩展的轨迹生成和灵活的训练环境。V-ToolRL是一种基于强化学习的新框架，使LVLM能够通过直接优化任务成功率自主发现最佳工具使用策略，超越传统的监督微调方法。
其它亮点

实验表明，基于Qwen2-VL-2B的RL训练代理在图表推理任务中显著优于SFT初始化代理（+28.83点），并且超越了包括GPT-4.1在内的多个基准模型。论文提供了开源框架OpenThinkIMG，为动态工具增强视觉推理的研究奠定了基础。未来可以进一步研究更复杂的视觉任务和多模态工具的结合。
相关研究

相关研究包括Taco和CogCom等监督学习方法，这些方法主要依赖静态演示进行微调。此外，还有其他强化学习应用于多模态任务的工作，如《Reinforcement Learning for Multimodal Reasoning in Vision-Language Models》和《Toolformer: Language Models with Tool Use Capabilities》。这些研究共同推动了工具增强型AI代理的发展，但本文首次将强化学习与LVLM结合用于视觉工具交互。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问