- 简介本文研究了利用强化学习(RL)提升大型语言模型(LLM)代理推理能力的方法。具体而言,我们专注于多轮工具使用场景,这类场景可以自然地建模为马尔可夫决策过程(MDPs)。尽管现有的方法通常在多臂赌博机设置中通过轨迹级优势估计来训练多轮LLM代理,但在多步决策过程中,它们难以实现轮次级别的功劳分配,从而限制了其在多轮推理任务中的表现。为了解决这一问题,我们提出了一种细粒度的轮次级优势估计策略,以在多轮代理交互中实现更精确的功劳分配。该策略具有通用性,可以集成到多种强化学习算法中,例如基于群体相对偏好优化(GRPO)的算法。我们在多轮推理和基于搜索的工具使用任务中对GRPO实现进行了实验评估,结果表明,马尔可夫决策过程框架以及轮次级功劳分配策略能够显著增强LLM代理在复杂决策环境下的多轮推理能力。我们的方法在工具执行中实现了100%的成功率,并在精确答案匹配中达到了50%的准确率,显著优于基线方法。基线方法不仅无法正确调用工具,而且在精确答案匹配中的准确率仅为20%-30%。
-
- 图表
- 解决问题论文试图解决大型语言模型(LLM)代理在多轮推理任务中的信用分配问题。具体来说,现有的方法在处理多轮工具使用场景时,难以精确地将奖励分配到每一轮决策中,从而限制了模型的性能。这是一个需要改进的问题,但并非全新的研究方向。
- 关键思路论文提出了一种细粒度的回合级优势估计策略,用于更精确地进行信用分配。这种方法可以与各种强化学习算法结合使用,例如Group Relative Preference Optimization (GRPO),以提高多轮推理任务中的模型表现。相比现有方法通常在轨迹级别进行优势估计,该方法聚焦于回合级别的优化,提升了多轮决策过程中的奖励分配精度。
- 其它亮点实验结果表明,该方法在工具执行成功率上达到了100%,并在答案匹配准确率上达到50%,显著优于基线方法(20-30%)。实验设计涵盖了多轮推理和基于搜索的工具使用任务。虽然论文未提及数据集的具体名称或是否开源代码,但其提出的回合级优势估计策略为未来的研究提供了新的方向,特别是在复杂决策环境下的多轮推理任务中。
- 近期相关研究包括:1) 使用人类反馈微调LLM以增强其推理能力;2) 基于强化学习的LLM代理优化;3) 多模态环境下的LLM工具使用。一些相关的论文标题包括《Fine-Tuning Language Models from Human Preferences》、《Reinforcement Learning for Dialogue Systems》以及《Learning to Act by Predicting the Future》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流