Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch

向作者提问

NEW

简介

训练配备工具的大型语言模型（LLM）已成为提升模型处理复杂任务能力的一种有前景的方法。当前的监督微调范式依赖于构建大量特定领域的数据集来训练模型，但这种方法往往难以有效泛化到不熟悉或复杂的工具使用场景中。最近，强化学习（RL）范式被证明能够赋予LLM更强的推理能力和泛化性能。在本研究中，我们探讨了一个关键问题：纯强化学习能否有效激发模型内在的推理能力，并增强其对工具的通用泛化能力？为此，我们提出了一种面向基于规则的强化学习的动态泛化引导奖励机制，该机制逐步将奖励重点从探索性工具使用模式转向利用性工具使用模式。基于这一设计，我们推出了Tool-Zero系列模型。这些模型通过直接从零开始（即基于未经后续训练的基础模型）扩大强化学习规模，使LLM能够自主地调用通用工具。实验结果表明，在相同的实验设置下，我们的模型相比监督微调（SFT）以及结合监督微调的强化学习（RL-with-SFT）模型，性能提升了7%以上。这种优势在跨数据集和同数据集内的各项评估中均保持一致，验证了我们方法的有效性和鲁棒性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前监督微调（SFT）在训练工具增强型大语言模型时泛化能力不足的问题，尤其是在面对未见过或复杂的工具使用场景时表现不佳。该问题在工具通用性和跨任务迁移方面具有挑战性，虽非全新问题，但针对纯强化学习（RL）直接从零开始提升模型工具使用泛化能力的研究尚属前沿。
关键思路

提出一种动态的、泛化导向的奖励机制，用于基于规则的强化学习，逐步从探索性转向利用性工具使用模式。关键创新在于完全跳过监督微调阶段，直接在基础模型（Zero模型）上进行纯强化学习训练，从而激发模型内在的推理能力并提升对未知工具的泛化能力。
其它亮点

推出了Tool-Zero系列模型，在相同实验设置下相比SFT和RL-with-SFT模型性能提升超过7%；实验涵盖跨数据集和同数据集评估，验证了方法的有效性与鲁棒性；训练过程无需领域特定标注数据，具备更强的可扩展性；虽然文中未明确提及是否开源代码，但其‘从Zero模型直接强化学习’的范式为后续研究提供了新方向，值得深入探索奖励设计、工具抽象表示及多模态工具集成。
相关研究

1. Reinforcement Learning for Language Models: A Survey (2023) 2. PAL: Program-aided Language Models (ICML 2023) 3. Reflexion: Language Agents with Verbal Reinforcement Learning (ICML 2023) 4. CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing (2024) 5. Toolformer: Language Models Can Teach Themselves to Use Tools (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问