V-Thinker: Interactive Thinking with Images

向作者提问

NEW

简介

让大型多模态模型（LMM）深度整合图像交互与长程推理能力，一直是该领域长期存在的挑战。近期在以视觉为核心的推理研究中，出现了一种名为“用图像思考”的新范式，为多模态大模型的发展提供了新的方向，标志着从“图像辅助推理”向“图像交互式思维”的转变。尽管这一里程碑使模型能够聚焦于图像的细粒度区域，但进展仍受限于视觉工具空间的不足以及任务特定的工作流程设计。为弥合这一差距，我们提出了V-Thinker——一种通用的多模态推理助手，通过端到端的强化学习实现可交互的、以视觉为中心的推理能力。V-Thinker包含两个核心组件：（1）数据演进飞轮，能够在多样性、质量和难度三个维度上自动合成、演化并验证交互式推理数据集；（2）视觉渐进式训练课程，首先通过点级监督对齐感知能力，再通过两阶段的强化学习框架整合交互式推理能力。此外，我们还推出了VTBench，这是一个经过专家验证、专注于视觉中心化交互推理任务的基准测试。大量实验表明，V-Thinker在通用和交互式推理场景中均持续优于强大的基于LMM的基线方法，为推进图像交互式推理应用提供了有价值的见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型多模态模型（LMMs）在图像交互与长视野推理深度结合方面的长期挑战。现有方法受限于视觉工具空间的局限性和任务特定的工作流设计，难以实现真正以视觉为中心的交互式推理。这仍然是一个多模态AI领域尚未充分解决的问题。
关键思路

提出V-Thinker，一种通过端到端强化学习实现图像交互式推理的通用多模态推理助手。其核心创新在于‘用图像思考’（Thinking with Images）范式的推进：通过‘数据进化飞轮’自动生成和演化多样化、高质量、多难度的交互推理数据，并采用‘视觉渐进训练课程’，先进行点级感知对齐，再通过两阶段强化学习整合交互推理能力。
其它亮点

1. 提出VTBench——一个由专家验证的、面向视觉中心型交互推理任务的基准测试；2. 实验表明V-Thinker在通用与交互式推理场景中均显著优于现有的强大多模态基线模型；3. 数据合成与训练流程实现了自动化演化与验证，具备可扩展性；4. 论文强调了开源可能性，鼓励后续研究在更广泛的视觉交互任务上拓展该框架。
相关研究

1. “LLaVA: Large Language and Vision Assistant” (Liu et al., NeurIPS 2023) 2. “Visual Instruction Tuning” (Liu et al., NeurIPS 2023) 3. “Mind's Eye: Grounded Language Model Reasoning through Simulation” (Wu et al., 2024) 4. “From Image Captioning to Vision-Based Reinforcement Learning” (Chen et al., ICML 2023) 5. “Thinking in Images: Visual Chain-of-Thought for Multimodal Tasks” (Huang et al., CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问