ToolRL: Reward is All Tool Learning Needs

2025年04月16日
  • 简介
    当前的大规模语言模型(LLMs)通常通过监督微调(SFT)来获得工具使用能力。然而,SFT在面对不熟悉或复杂的工具使用场景时,泛化能力有限。近期强化学习(RL)领域的进展,尤其是类似R1的模型,展现了令人鼓舞的推理和泛化能力。然而,工具使用的奖励设计面临独特挑战:多个工具可能以不同的参数被调用,而粗粒度的奖励信号(如答案匹配)无法提供有效学习所需的细粒度反馈。在这项工作中,我们首次对强化学习范式下工具选择与应用任务的奖励设计进行了全面研究。我们系统地探索了广泛的奖励策略,分析了它们的类型、尺度、粒度和时间动态特性。基于这些洞察,我们提出了一种针对工具使用任务的原则性奖励设计,并结合群体相对策略优化(GRPO)方法用于训练LLMs。通过在多样基准上的实证评估,我们的方法展现出稳健、可扩展且稳定的训练效果,相比基础模型性能提升了17%,相比SFT模型提升了15%。这些结果表明,精心设计的奖励机制在增强LLMs的工具使用能力和泛化性能方面起着关键作用。所有代码均已开源,以促进未来的研究工作。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)在工具使用任务中的泛化能力不足问题,特别是监督微调(SFT)方法难以应对复杂或不熟悉的工具使用场景。这是一个重要但尚未完全解决的问题。
  • 关键思路
    论文提出通过强化学习(RL)结合精心设计的奖励机制来提升LLM在工具选择和应用任务中的泛化能力。与传统的粗粒度奖励信号不同,该研究系统地探索了多种奖励策略,并提出了一个原则性的奖励设计方案,配合Group Relative Policy Optimization (GRPO)算法进行训练。这种方法相比现有的SFT方法更具创新性,能够提供更细粒度的学习反馈。
  • 其它亮点
    论文通过实验验证了所提方法的有效性,在多个基准测试中实现了17%的性能提升,相对于SFT模型也有15%的改进。此外,作者开源了所有代码,为未来的研究提供了便利。实验设计涵盖了多样化的工具使用场景,确保结果的稳健性和可复现性。未来值得深入研究的方向包括更复杂的多步骤工具链以及动态环境下的工具使用。
  • 相关研究
    近期相关研究包括:1) R1-like模型在推理和泛化方面的进展;2) 基于RL的对话系统优化;3) 工具链自动化的研究。例如,《Reinforcement Learning for Tool Use in Language Models》探讨了类似问题,但未涉及奖励设计的系统性分析;《Generalization in Multi-Tool Scenarios》则专注于多工具协同使用的挑战。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问