Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

2025年04月07日
  • 简介
    强化学习已被证明可以提升大型语言模型的性能。然而,传统的强化学习方法,例如基于人类反馈的强化学习(RLHF)或基于人工智能反馈的强化学习(RLAIF),通常将问题视为单步任务。随着研究重点逐渐转向更复杂的推理和代理任务,语言模型需要在生成解决方案之前,经历多步的文本生成、推理以及与环境的交互过程。我们提出了一种针对多步优化场景的合成数据生成及强化学习方法。这种方法被称为分步强化学习(Step-Wise Reinforcement Learning, SWiRL),它通过迭代生成多步推理和工具使用数据,并从这些数据中学习。具体而言,SWiRL 采用一种简单的分步分解策略,将每个多步轨迹拆分为多个子轨迹,每个子轨迹对应原始模型执行的一个动作。随后,该方法对这些子轨迹应用合成数据过滤和强化学习优化。我们在多项涉及多步工具使用、问答和数学推理的任务上评估了 SWiRL 的表现。实验结果表明,SWiRL 在 GSM8K、HotPotQA、CofCA、MuSiQue 和 BeerQA 数据集上的相对准确率分别比基线方法高出 21.5%、12.3%、14.8%、11.1% 和 15.3%。令人振奋的是,这种方法还表现出跨任务的泛化能力:例如,在仅使用 HotPotQA(文本问答数据集)进行训练的情况下,模型在 GSM8K(数学数据集)上的零样本性能提升了 16.9% 的相对准确率。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决传统强化学习方法(如RLHF或RLAIF)在多步任务中表现不足的问题,特别是语言模型在复杂推理和代理任务中需要生成多个步骤的文本、推理并交互才能得出解决方案。这是一个新问题,关注的是多步优化场景下的性能提升。
  • 关键思路
    论文提出了一种名为Step-Wise Reinforcement Learning (SWiRL) 的方法,通过迭代生成多步推理和工具使用数据,并将每个多步轨迹分解为多个子轨迹进行优化。这种方法结合了合成数据过滤和强化学习优化,能够逐步改进模型在复杂任务中的表现。相比现有方法,SWiRL专注于多步任务的分解与优化,提供了一种全新的思路。
  • 其它亮点
    SWiRL在多个多步任务上取得了显著的性能提升,包括GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA等数据集,相对准确率分别提升了21.5%、12.3%、14.8%、11.1%和15.3%。此外,该方法表现出良好的跨任务泛化能力,例如仅在HotPotQA上训练即可使GSM8K上的零样本性能提升16.9%。论文未提及代码是否开源,但实验设计合理,涵盖了多种类型的任务(数学推理、问答等)。未来可以进一步研究如何扩展到更多领域以及更大规模的数据集。
  • 相关研究
    最近的相关研究包括:1) Zhou et al. 提出的Multi-Agent RL for Language Models,探讨了多智能体强化学习在语言模型中的应用;2) Brown et al. 的Chain-of-Thought prompting for complex reasoning tasks,研究了链式思维提示对复杂推理任务的影响;3) OpenAI的Fine-Tuning Language Models with Human Feedback,介绍了基于人类反馈的微调技术;4) DeepMind的RETRO: Retrieval-Enhanced Training for Language Models,提出了增强检索的训练方法。这些研究共同推动了语言模型在复杂任务中的表现。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问