Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

向作者提问

NEW

简介

强化学习已被证明可以提升大型语言模型的性能。然而，传统的强化学习方法，例如基于人类反馈的强化学习（RLHF）或基于人工智能反馈的强化学习（RLAIF），通常将问题视为单步任务。随着研究重点逐渐转向更复杂的推理和代理任务，语言模型需要在生成解决方案之前，经历多步的文本生成、推理以及与环境的交互过程。我们提出了一种针对多步优化场景的合成数据生成及强化学习方法。这种方法被称为分步强化学习（Step-Wise Reinforcement Learning, SWiRL），它通过迭代生成多步推理和工具使用数据，并从这些数据中学习。具体而言，SWiRL 采用一种简单的分步分解策略，将每个多步轨迹拆分为多个子轨迹，每个子轨迹对应原始模型执行的一个动作。随后，该方法对这些子轨迹应用合成数据过滤和强化学习优化。我们在多项涉及多步工具使用、问答和数学推理的任务上评估了 SWiRL 的表现。实验结果表明，SWiRL 在 GSM8K、HotPotQA、CofCA、MuSiQue 和 BeerQA 数据集上的相对准确率分别比基线方法高出 21.5%、12.3%、14.8%、11.1% 和 15.3%。令人振奋的是，这种方法还表现出跨任务的泛化能力：例如，在仅使用 HotPotQA（文本问答数据集）进行训练的情况下，模型在 GSM8K（数学数据集）上的零样本性能提升了 16.9% 的相对准确率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决传统强化学习方法（如RLHF或RLAIF）在多步任务中表现不足的问题，特别是语言模型在复杂推理和代理任务中需要生成多个步骤的文本、推理并交互才能得出解决方案。这是一个新问题，关注的是多步优化场景下的性能提升。
关键思路

论文提出了一种名为Step-Wise Reinforcement Learning (SWiRL) 的方法，通过迭代生成多步推理和工具使用数据，并将每个多步轨迹分解为多个子轨迹进行优化。这种方法结合了合成数据过滤和强化学习优化，能够逐步改进模型在复杂任务中的表现。相比现有方法，SWiRL专注于多步任务的分解与优化，提供了一种全新的思路。
其它亮点

SWiRL在多个多步任务上取得了显著的性能提升，包括GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA等数据集，相对准确率分别提升了21.5%、12.3%、14.8%、11.1%和15.3%。此外，该方法表现出良好的跨任务泛化能力，例如仅在HotPotQA上训练即可使GSM8K上的零样本性能提升16.9%。论文未提及代码是否开源，但实验设计合理，涵盖了多种类型的任务（数学推理、问答等）。未来可以进一步研究如何扩展到更多领域以及更大规模的数据集。
相关研究

最近的相关研究包括：1) Zhou et al. 提出的Multi-Agent RL for Language Models，探讨了多智能体强化学习在语言模型中的应用；2) Brown et al. 的Chain-of-Thought prompting for complex reasoning tasks，研究了链式思维提示对复杂推理任务的影响；3) OpenAI的Fine-Tuning Language Models with Human Feedback，介绍了基于人类反馈的微调技术；4) DeepMind的RETRO: Retrieval-Enhanced Training for Language Models，提出了增强检索的训练方法。这些研究共同推动了语言模型在复杂任务中的表现。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问