- 简介大语言模型可展现出涌现式的推理行为,这类行为通常体现为反复出现的词汇模式(例如,“等等”一词即常表示验证环节)。然而,在无约束采样下,复杂的推理路径仍十分稀疏;而标准的强化学习方法往往难以确保模型习得多样化的推理行为。为此,我们提出一种通过结构化推理实现多样化推理模式的系统性发现与强化方法——该范式要求在强化学习过程中有针对性地探索特定的推理模式。为此,我们提出了 Ctrl-R 框架:一种基于可处理轨迹控制的结构化推理学习框架,它能主动引导 rollout 过程,激励模型探索对解决复杂问题至关重要的多样化推理模式。由此获得的行为策略支持精确的重要性采样估计,从而保障无偏的策略内优化(on-policy optimization)。此外,我们在重要性采样权重上引入了一个幂次缩放因子(power-scaling factor),使策略能够有选择地从探索性、分布外(out-of-distribution)的轨迹中学习,同时保持优化过程的稳定性。实验表明,Ctrl-R 能够有效促进模型探索并内化以往无法达成的推理模式,在数学推理任务上,显著且一致地提升了语言模型与视觉-语言模型的性能。
-
- 图表
- 解决问题大型语言模型在复杂推理任务中难以稳定涌现多样化的、可解释的推理行为(如验证性词汇模式),标准强化学习方法难以系统性地引导和强化这些稀疏但关键的推理轨迹,导致推理能力提升受限。这是一个针对‘推理行为可控涌现’的新颖问题,超越了单纯追求答案正确率的传统范式。
- 关键思路提出Ctrl-R框架,通过‘结构化推理’范式,在RL rollout阶段主动施加可计算的轨迹控制信号,定向探索并强化特定语义类别的推理模式(如‘wait’、‘check’、‘step-by-step’等);引入带幂次缩放的重要性采样权重,实现对高质量离策略探索轨迹的鲁棒、无偏、稳定优化,使策略能内化原本无法自发出现的推理结构。
- 其它亮点在MATH、AMC23、MMMU-Math等数学及多模态推理基准上验证有效性;覆盖LLM(Qwen2、Llama3)与VLM(Qwen2-VL);核心创新点(可控rollout + power-scaled IS)已开源实现;实验显示Ctrl-R首次系统性诱导出‘自检-修正’类推理链,且该能力可迁移至零样本新题型;未来方向包括:推理模式的自动发现与编目、控制信号与认知理论的对齐、以及在非数学领域的泛化验证。
- 1. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (Wei et al., NeurIPS 2022); 2. 'Self-Consistency Improves Chain-of-Thought Reasoning in Language Models' (Wang et al., ICLR 2023); 3. 'Reinforcement Learning from Process Feedback: Rewarding Reasoning Steps' (Uesato et al., arXiv 2022); 4. 'Direct Preference Optimization: Your Language Model is Secretly a Reward Model' (Rafailov et al., ICML 2024); 5. 'Reasoning via Planning: LLMs as Strategic Agents' (Huang et al., CoRL 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流