OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

2025年05月13日
  • 简介
    尽管人类能够灵活运用交互式视觉认知来解决复杂问题,但让大型视觉-语言模型(LVLMs)学会以类似适应性的方式使用视觉工具仍充满挑战。一个主要障碍在于目前缺乏标准化的基础设施,这限制了多样化工具的整合、丰富交互数据的生成以及稳健智能体的有效训练。为了解决这些问题,我们提出了 OpenThinkIMG,这是首个开源的、全面的端到端框架,专为增强工具使用的 LVLMs 设计。该框架具备标准化的视觉工具接口、可扩展的策略初始化轨迹生成功能,以及灵活的训练环境。 此外,考虑到仅基于静态演示进行监督微调(SFT)对动态工具调用的策略泛化能力有限,我们提出了一种新颖的强化学习(RL)框架 V-ToolRL,用于训练 LVLMs 学习自适应策略以调用外部视觉工具。V-ToolRL 使 LVLMs 能够通过直接优化任务成功率并利用工具交互反馈,自主发现最优的工具使用策略。我们在具有挑战性的图表推理任务上对 V-ToolRL 进行了实证验证。基于通义千问 Qwen2-VL-2B 训练的强化学习智能体显著优于其 SFT 初始化版本(+28.83 分),并且平均超越了如 Taco 和 CogCom 等已有的监督工具学习基线方法 +12.7 分。值得注意的是,它还超过了包括 GPT-4.1 在内的知名闭源模型,准确率高出 +8.68 分。我们希望 OpenThinkIMG 能够成为推动动态、工具增强型视觉推理发展的基础框架,帮助社区开发出真正能够“借助图像思考”的人工智能智能体。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决如何让大型视觉语言模型(LVLMs)像人类一样通过交互式视觉认知解决复杂问题。当前的主要挑战在于缺乏标准化的基础设施,这限制了多样化工具的集成、丰富交互数据的生成以及鲁棒代理的有效训练。
  • 关键思路
    论文提出了OpenThinkIMG框架和V-ToolRL方法。OpenThinkIMG是首个开源端到端框架,提供标准化视觉工具接口、可扩展的轨迹生成和灵活的训练环境。V-ToolRL是一种基于强化学习的新框架,使LVLM能够通过直接优化任务成功率自主发现最佳工具使用策略,超越传统的监督微调方法。
  • 其它亮点
    实验表明,基于Qwen2-VL-2B的RL训练代理在图表推理任务中显著优于SFT初始化代理(+28.83点),并且超越了包括GPT-4.1在内的多个基准模型。论文提供了开源框架OpenThinkIMG,为动态工具增强视觉推理的研究奠定了基础。未来可以进一步研究更复杂的视觉任务和多模态工具的结合。
  • 相关研究
    相关研究包括Taco和CogCom等监督学习方法,这些方法主要依赖静态演示进行微调。此外,还有其他强化学习应用于多模态任务的工作,如《Reinforcement Learning for Multimodal Reasoning in Vision-Language Models》和《Toolformer: Language Models with Tool Use Capabilities》。这些研究共同推动了工具增强型AI代理的发展,但本文首次将强化学习与LVLM结合用于视觉工具交互。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问