腾讯AI Lab &马里兰大学，首个用于复杂现实世界推理任务的并行思维强化学习框架

报告主题：Parallel-R1：基于强化学习实现大语言模型并行思考

报告日期：01月09日（周五）10:30-11:30

报告要点：

本期报告将由马里兰大学郑童进行分享。

并行思维作为一种新方法，通过同时探索多个推理路径来增强大语言模型（LLMs）的推理能力。然而，目前主要依赖于在合成数据上的监督微调（SFT）来激活这种能力，这种方式鼓励的是强制模仿教师模型的行为，而非探索和泛化能力的培养，因此通过训练实现并行思维仍具有挑战性。与现有方法不同，我们提出了\textbf{Parallel-R1}，这是首个用于复杂现实世界推理任务的并行思维强化学习（RL）框架。我们的框架采用了一种渐进式的课程学习策略，明确解决了使用强化学习训练并行思维时面临的冷启动问题。我们首先在较简单任务生成的提示轨迹上进行监督微调，以初步掌握并行思维能力，随后过渡到强化学习阶段，在更具挑战性的问题上进一步探索和拓展这一能力。

在包括MATH、AMC23和AIME在内的多个数学基准测试中进行的实验表明，Parallel-R1成功地培养了并行思维能力，相比直接在复杂任务上使用强化学习训练的顺序思维模型，准确率提升了8.4%。进一步分析显示，模型的思维行为发生了明显转变：在训练初期，并行思维主要作为探索策略被使用；而在后期，则更多地用于从多个角度进行验证。最重要的是，我们将并行思维验证为一种\textbf{中期训练的探索支架}，这种临时性的探索阶段在强化学习后期释放出了更高的性能上限，在AIME25上相比基线模型提升了42.9%。我们的模型、数据和代码将开源，地址为 https://github.com/zhengkid/Parallel-R1。

腾讯AI Lab &马里兰大学，首个用于复杂现实世界推理任务的并行思维强化学习框架

评论列表

评论