Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

2025年08月14日
  • 简介
    在可验证奖励的强化学习(RLVR)中,通常采用 Pass@1 作为奖励,但这种方法在探索与利用之间的平衡上面临挑战,导致策略倾向于保守行为,并收敛于局部最优。因此,确定一个合适的奖励度量至关重要。在先前的研究基础上,尽管 Pass@k 已被用于评估,但其与 RLVR 中大语言模型(LLM)探索能力之间的关联却鲜有关注。 为了深入研究这一问题,我们首先将 Pass@k 作为奖励用于策略模型的训练(即“Pass@k 训练”),并观察其在提升探索能力方面的效果。接着,我们对 Pass@k 训练的优势进行了理论分析,得出了一个解析解,从而实现了高效且有效的训练过程。 在此基础上,我们的分析揭示出探索与利用并非本质上相互矛盾的目标,反而可以相辅相成。此外,基于解析推导的 Pass@k 训练实质上等同于直接设计优势函数。受此启发,我们初步探索了 RLVR 中优势函数的设计方法,取得了令人鼓舞的结果,并指出了一个具有潜力的未来研究方向。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决强化学习与可验证奖励(RLVR)中探索与利用的平衡问题。当前方法(如Pass@1)导致策略偏向保守行为,收敛于局部最优。论文验证Pass@k是否能增强探索能力,并重新审视探索与利用之间的关系。
  • 关键思路
    论文提出使用Pass@k作为奖励机制进行策略训练(Pass@k Training),并通过分析推导其优势函数,发现探索与利用并非本质对立,而是可以相互促进。这种方法不同于传统设计策略的方式,而是直接设计优势函数,从而提升RLVR中的探索效率。
  • 其它亮点
    1. 实验采用Pass@k作为训练奖励,并观察到策略探索能力的显著提升。 2. 通过理论分析推导出Pass@k训练的优势函数,提出一种高效训练方法。 3. 揭示探索与利用可以协同增强,挑战了传统认知。 4. 初步探索了优势函数设计在RLVR中的潜力,显示出良好前景。 5. 为未来研究提供新方向:如何更直接地设计优势函数以优化探索策略。
  • 相关研究
    1. 《Deep Reinforcement Learning with a Compositional Reward Function》 2. 《Reward Design in Reinforcement Learning: Challenges and Opportunities》 3. 《On the Relationship Between Exploration and Exploitation in Reinforcement Learning》 4. 《Language Models as Policy Functions in Interactive Reinforcement Learning Settings》 5. 《Pass@k: A Metric for Evaluating Language Model Performance on Code Generation Tasks》
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问