Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning

2025年05月22日
  • 简介
    大规模推理模型(LRMs)在复杂推理任务中表现出强大的性能,但常常会陷入“过度思考”的问题,无论任务难度如何,都会生成冗余内容。受认知科学中双重加工理论的启发,我们提出了自适应认知策略优化(ACPO),这是一种强化学习框架,能够使大规模推理模型通过自适应的认知资源分配和动态系统切换实现高效推理。ACPO 包含两个关键组件:(1)引入系统感知推理标记(system-aware reasoning tokens),以明确表示不同的思维模式,从而使模型的认知过程更加透明;(2)结合在线难度估计和标记长度预算,在强化学习过程中引导自适应系统切换和推理路径生成。为此,我们提出了一种两阶段训练策略。第一阶段从监督微调开始,使模型能够生成带有明确思维模式的推理路径;第二阶段则应用 ACPO 进一步增强基于任务难度的自适应系统切换能力。实验结果表明,ACPO 能够有效减少冗余推理,并根据任务复杂性自适应调整认知资源分配,从而实现高效的混合推理。
  • 图表
  • 解决问题
    论文试图解决大型推理模型(LRMs)在处理复杂任务时存在的‘过度思考’问题,即无论任务难度如何,模型都会生成冗余内容。这是一个现有问题,但该研究提出了新的方法来优化模型的认知分配和动态切换。
  • 关键思路
    论文提出了一种名为ACPO的强化学习框架,通过引入系统感知推理标记(system-aware reasoning tokens)使模型的思维模式透明化,并结合在线难度估计和令牌长度预算指导动态系统切换。此外,还设计了两阶段训练策略:第一阶段通过监督微调让模型生成带有明确思维模式的推理路径;第二阶段利用ACPO进一步增强基于任务难度的自适应系统切换能力。这种方法的新意在于将认知科学中的双过程理论与深度学习结合,实现了高效混合推理。
  • 其它亮点
    论文设计了实验验证ACPO在减少冗余推理的同时,能够根据任务复杂度调整认知资源分配。实验使用了多种合成及真实数据集(具体数据集名称未提及),并展示了模型性能提升的定量结果。此外,研究中提出的system-aware reasoning tokens为理解模型内部推理机制提供了新视角。虽然论文未明确提到代码开源,但其提出的两阶段训练策略值得进一步探索,未来可研究更复杂的任务场景或扩展到多模态领域。
  • 相关研究
    最近的相关研究包括:1)《Chain of Thought Prompting Elicits Reasoning in Large Language Models》探讨了通过链式提示提升大语言模型的推理能力;2)《Less is More: Parameter-efficient Tuning for Large-scale Language Models》研究了参数高效微调以减少冗余计算;3)《Dynamic Prompting for Adaptive Reasoning in Transformers》提出动态提示机制以实现自适应推理。这些研究共同关注如何改进大模型的推理效率和灵活性,而本研究的独特之处在于结合了认知科学理论与强化学习技术。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论