Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

简介

为大型语言模型（LLM）配备外部工具已成为扩展其功能超越文本领域的关键策略。为了增强LLM的工具调用能力，以往的方法主要依赖于通过更强模型蒸馏出的轨迹进行监督微调（SFT），这往往导致模仿式推理，从而限制了泛化能力。在本研究中，我们探索了基于规则的强化学习方法以提升LLM的工具调用能力，并开发了一系列名为Nemotron-Research-Tool-N1的工具调用推理模型。与对中间蒸馏推理轨迹施加监督不同，Tool-N1通过二元强化学习奖励进行训练，该奖励仅评估工具调用的格式有效性和功能正确性。这种轻量级监督使模型能够独立发展推理策略，而无需依赖注释的轨迹。在多个主要基准测试中的实验表明，Tool-N1-7B/14B明显优于GPT-4o。我们还对用于训练工具调用模型的基于规则的强化学习策略设计进行了系统研究。利用5,518条蒸馏推理轨迹，我们比较了监督微调（SFT）、强化学习（RL）以及SFT-then-RL管道的效果，发现广泛采用的SFT-then-RL范式并不一定优于纯强化学习方法。
图表
解决问题

论文试图解决大型语言模型在工具调用能力上的局限性问题，尤其是如何避免通过监督学习导致的模仿推理所引发的泛化能力不足。这是一个较为新颖的问题，专注于改进LLM在工具调用中的独立推理能力。
关键思路

论文提出使用基于规则的强化学习（RL）方法来训练LLM的工具调用能力，而非依赖传统的监督微调（SFT）。通过仅评估工具调用的格式有效性和功能正确性，模型能够自主发展推理策略，而不依赖于蒸馏轨迹的监督。这种方法与当前主流的SFT-then-RL范式形成对比，展现了全新的训练思路。
其它亮点

1. 提出了Nemotron-Research-Tool-N1系列模型，在多个基准测试中显著超越GPT-4o。 2. 使用5,518条蒸馏推理轨迹进行实验，系统比较了SFT、RL和SFT-then-RL三种方法的效果，发现纯RL可能优于混合范式。 3. 论文开源了实验数据集和部分代码，为后续研究提供了便利。 4. 值得进一步研究的方向包括更复杂的奖励设计、多模态工具集成以及更大规模的数据集验证。
相关研究

相关研究包括： 1. "Chain of Thought Prompting Elicits Reasoning in Large Language Models" - 探讨了通过提示工程提升LLM推理能力。 2. "Fine-Tuning Language Models from Human Preferences" - 研究了通过人类反馈微调LLM的方法。 3. "Reinforcement Learning from Human Feedback for Language Models" - 将强化学习与人类反馈结合以优化模型性能。 4. "Toolbench: A Framework for Building and Evaluating Tool-Calling LLMs" - 提供了一个用于构建和评估工具调用型LLM的框架。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论