Understanding Tool-Integrated Reasoning

简介

我们研究了为何工具集成推理（TIR）能够增强大语言模型（LLMs）的能力。尽管将大语言模型与Python代码解释器等工具结合展现出巨大潜力，但此前一直缺乏一个系统性的理论来解释这一范式的有效性。本文首次提供了形式化的证明，表明TIR从根本上拓展了大语言模型的能力。我们展示出，工具的引入能够严格扩展模型的经验与可行支持范围，突破纯文本模型的能力上限，解锁原本无法实现或需要冗长表达才能完成的问题求解策略。为了在不损害训练稳定性与性能的前提下引导模型行为，我们还提出了一种新的算法——优势函数塑造策略优化（ASPO），该算法通过直接修改优势函数来引导策略行为。我们在具有挑战性的数学基准任务上进行了全面实验，利用Python解释器作为外部工具。实验结果表明，TIR模型在pass@k指标上显著优于其纯文本基线模型。关键在于，这种优势不仅体现在计算密集型问题上，也体现在那些需要高度抽象理解的问题上。此外，我们还识别出一些新兴的认知模式，这些模式展示了模型是如何学会借助工具进行思考的。最后，我们发现使用ASPO后，模型在更早阶段调用代码的行为有所改善，并且与工具的交互轮次显著增加。总体而言，我们的研究为TIR的成功提供了首个系统性的解释，将关注点从"工具有效"这一事实，转向了"为何以及如何通过工具实现更强的推理能力"这一更深层次的理解。
图表
解决问题

论文试图解决的问题是：为什么将大型语言模型（LLMs）与工具（如Python解释器）集成（TIR）能够显著提升模型的推理能力。这是一个相对较新的问题，尽管已有研究展示工具集成的有效性，但缺乏从理论上解释其为何有效的工作。
关键思路

论文的核心思路是通过形式化证明，TIR能够从根本上扩展LLM的经验和可行解空间，从而突破纯文本模型的能力上限。此外，论文提出了一种新的策略优化方法——优势塑造策略优化（ASPO），用于引导模型更有效地使用工具，同时保持训练稳定性。
其它亮点

1. 首次从理论上证明TIR能够提升LLM的能力，而不仅仅是经验性地展示效果。 2. 实验表明TIR在数学推理任务上显著优于纯文本模型，且优势不仅限于计算密集型问题，也适用于需要抽象推理的问题。 3. ASPO算法提升了模型早期调用工具的能力，并增强了与工具的交互性。 4. 研究揭示了模型在使用工具时出现的新兴认知模式。 5. 论文可能开源了相关代码并使用了具有挑战性的数学基准数据集。
相关研究

1. Chain-of-thought prompting techniques for LLMs 2. Program-aided language models for reasoning tasks 3. Tool use in language models through reinforcement learning or planning 4. Recent works on external memory and reasoning augmentation for LLMs

Understanding Tool-Integrated Reasoning

评论