Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

向作者提问

NEW

简介

并行思维作为一种新方法逐渐兴起，旨在通过同时探索多条推理路径来增强大语言模型（LLMs）的推理能力。然而，通过训练激活这种能力仍面临挑战，因为现有方法主要依赖于在合成数据上进行监督式微调（SFT），这种方式更倾向于强制模型模仿教师模型，而非鼓励探索与泛化能力。与这些方法不同，我们提出了\textbf{Parallel-R1}，这是首个面向复杂现实世界推理任务的并行思维强化学习（RL）框架。我们的框架采用了一种渐进式的课程设计，明确解决了使用强化学习训练并行思维时遇到的冷启动问题。我们首先在较简单任务生成的提示轨迹上进行监督式微调，以培养模型的并行思维能力；随后过渡到强化学习阶段，使模型能够在更复杂的问题上进行探索和泛化。在多个数学基准测试（包括MATH、AMC23和AIME）上的实验表明，Parallel-R1 成功培养了模型的并行思维能力，在准确率上相比仅通过强化学习直接在复杂任务上训练的顺序思维模型提升了8.4%。进一步分析显示，模型的思维行为发生了明显转变：在训练早期阶段，并行思维被用作一种探索策略；而在后期阶段，该能力则被用于从多个视角进行验证。更重要的是，我们将并行思维验证为一种\textbf{训练中期的探索支架}，这种短暂的探索阶段为后续强化学习带来了更高的性能上限，在AIME25上的表现相比基线提升了42.9%。我们的模型、数据和代码将开源，地址为 https://github.com/zhengkid/Parallel-R1。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文试图解决大型语言模型（LLMs）在复杂现实推理任务中难以通过传统监督微调（SFT）方法培养出并行思考能力的问题。现有方法倾向于鼓励模型进行教师强制式模仿，而非探索与泛化，导致模型在处理高难度任务时表现受限。这是一个相对较新的研究问题，特别是在如何通过强化学习（RL）引导模型发展出真正的并行推理能力方面。
关键思路

论文提出了一种名为Parallel-R1的强化学习框架，首次将并行思考能力引入到复杂推理任务的训练中。其核心思路是采用渐进式课程设计，先通过SFT在简单任务上培养模型的并行思考能力，再过渡到RL阶段，使其在更难任务中探索和泛化这一能力。相比传统方法，该框架强调探索性训练阶段作为“中期探索支架”，从而提升模型在后续阶段的表现上限。
其它亮点

1. 实验在多个数学推理基准上进行，包括MATH、AMC23和AIME，结果表明Parallel-R1相比传统顺序思考模型提升了8.4%的准确率。 2. 在AIME25任务上，Parallel-R1相较于基线模型实现了42.9%的显著提升。 3. 分析显示模型在训练初期使用并行思考作为探索策略，在后期则用于多视角验证，说明其动态推理能力的演化。 4. 论文作者承诺开源模型、数据和代码，便于后续研究和复现（https://github.com/zhengkid/Parallel-R1）。 5. 该研究验证了“中期探索支架”机制的有效性，为未来训练更复杂推理能力提供了新方向。
相关研究

1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022) 2. Self-Consistency Improves Chain-of-Thought Reasoning in Language Models (Wang et al., 2023) 3. Program of Thoughts Prompting: Disentangling Computation from Reasoning for Arithmetic and Common-Sense Tasks (Zhou et al., 2023) 4. Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023) 5. Process-Driven Prompting: A Framework for Sequential Decision-Making with Language Models (Gao et al., 2023)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问