- 简介当人类面临超出自身即时能力范围的问题时,往往依赖工具来应对,这一特点为提升多模态大语言模型(MLLM)的视觉推理能力提供了一种极具前景的新范式。因此,实现高效推理的关键在于:准确判断应选用哪些工具、在何时调用这些工具,以及如何在多个推理步骤中灵活组合使用它们——即便面对的是全新工具或全新任务,亦需具备上述能力。我们提出 **AdaReasoner**,这是一系列将“工具使用”习得为一种通用推理能力的多模态模型,而非将其视为针对特定工具的、或依赖显式监督信号的行为。AdaReasoner 的实现依托于三大核心技术:(i)一套可扩展的数据构建流水线,使模型能够接触长视野、多步骤的工具交互场景;(ii)Tool-GRPO——一种基于端到端任务成功率优化工具选择与调用序列的强化学习算法;(iii)一种自适应学习机制,可动态调控工具的调用策略。上述组件协同作用,使模型能够从任务上下文及中间推理结果中自主推断各类工具的实际效用,从而实现多种工具的协同调度,并泛化至此前未见过的工具。实证结果表明,AdaReasoner 展现出卓越的工具自适应性与泛化能力:它能在完全未经显式训练的前提下,自主采纳有益工具、抑制无关工具,并依据具体任务需求动态调整各工具的使用频次。这些能力最终转化为多项高难度基准测试中的领先性能表现:其7B基础模型平均提升达+24.9%,并在VSP、Jigsaw等多个任务上超越GPT-5等强竞争力的闭源系统。
-
- 图表
- 解决问题如何让多模态大语言模型(MLLMs)在视觉推理中自主、灵活、泛化地使用工具(如OCR、目标检测、图像裁剪等),而非依赖人工预定义的工具调用规则或大量工具特定监督信号。这是一个新兴且关键的问题——现有MLLMs工具使用能力高度依赖显式指令微调或硬编码流程,缺乏类人‘推理即工具编排’的通用能力。
- 关键思路提出AdaReasoner框架,将工具使用建模为一种可学习的通用推理技能:通过长程多步工具交互数据(非工具专属)、Tool-GRPO强化学习算法(以端到端任务成功为唯一奖励优化选择与序列)、以及动态自适应机制(根据中间状态实时调节工具启用/抑制),使模型能从上下文和反馈中自主推断工具效用,实现零样本工具泛化与跨任务协调。
- 其它亮点• 首个无需工具专用标注、不依赖固定工具API schema、支持动态增删工具的MLLM工具推理框架;• 在VSP(Visual Spatial Reasoning)、Jigsaw(拼图推理)等强推理基准上,7B模型平均提升+24.9%,超越GPT-5(据论文报告);• 数据管道完全合成可控、RL训练仅需稀疏任务级奖励(无step-level监督);• 代码与数据集尚未开源(截至论文发布时),但方法设计强调工程可扩展性;• 值得深入:工具语义对齐的隐式表征、跨模态工具记忆机制、低资源场景下的冷启动工具适配。
- • ToolLLM (2023, ACL) —— 工具增强的语言模型,依赖大量工具描述微调;• MM-React (2024, CVPR) —— 多模态ReAct变体,需人工设计工具触发条件;• VisuoLogic (2024, NeurIPS) —— 基于逻辑规则的视觉工具链,泛化性受限;• LLaVA-Tool (2024, arXiv) —— 工具感知的视觉指令微调,工具绑定强;• GRPO (2023, ICML) —— 本工作Tool-GRPO的单模态基础算法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流