AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning

2025年07月29日
  • 简介
    通过面向推理的后训练增强后,大语言模型(LLMs)演变为强大的大推理模型(LRMs)。工具集成推理(TIR)通过引入外部工具进一步扩展了其能力,但现有方法通常依赖于僵化、预设的工具使用模式,可能会削弱模型的核心语言能力。受人类能够自适应选择工具的能力启发,我们提出了AutoTIR——一种强化学习框架,使大语言模型能够在推理过程中自主决定是否调用工具以及调用哪个工具,而不是遵循固定的工具使用策略。AutoTIR采用一种混合奖励机制,共同优化任务答案的正确性、结构化输出的符合度,并对错误的工具使用进行惩罚,从而促使模型在实现精确推理的同时高效整合工具。在多种知识密集型、数学类和通用语言建模任务上的广泛评估表明,AutoTIR在整体性能上表现出色,显著优于基线模型,并在工具使用行为方面展现出更强的泛化能力。这些结果表明,强化学习在构建真正具备通用性和可扩展性的TIR能力方面具有巨大潜力。代码和数据已公开,地址为 https://github.com/weiyifan1023/AutoTIR。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决当前工具集成推理(TIR)方法中依赖预定义、僵化的工具使用模式,这可能会削弱大型语言模型(LLM)的核心语言能力的问题。该问题在当前研究中尚未被有效解决,属于一个较新的研究方向。
  • 关键思路
    论文提出AutoTIR,一个基于强化学习的框架,使LLM能够在推理过程中自主决定是否以及使用哪个工具,而不是遵循静态策略。其核心创新在于引入了一种混合奖励机制,联合优化任务准确性、结构化输出一致性,并惩罚错误的工具使用行为,从而提升模型的推理能力和工具集成效率。
  • 其它亮点
    1. AutoTIR通过强化学习实现对工具使用的自适应决策,增强了模型的通用性和灵活性。 2. 实验覆盖知识密集型、数学和通用语言建模任务,验证了方法的广泛适用性。 3. 论文提供了开源代码和数据集(https://github.com/weiyifan1023/AutoTIR),增强了研究的可复现性与后续发展潜力。 4. AutoTIR在多个任务上显著优于基线方法,并展现出更强的工具使用泛化能力。
  • 相关研究
    1. Tool-Integrated Reasoning (TIR) 方法研究,如 ReAct 和 Self-Ask 等结合推理与工具调用的范式。 2. 强化学习在语言模型中的应用,如基于RL的对话策略优化与代码生成。 3. 近期相关论文包括:"ReAct: Synergizing Reasoning and Acting in Language Models", "Self-Ask: Improving Large Language Models' Ability to Solve New Tasks", "Toolformer: Language Models Can Teach Themselves to Use Tools"。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问