Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

向作者提问

NEW

简介

在可验证奖励的强化学习（RLVR）中，通常采用 Pass@1 作为奖励，但这种方法在探索与利用之间的平衡上面临挑战，导致策略倾向于保守行为，并收敛于局部最优。因此，确定一个合适的奖励度量至关重要。在先前的研究基础上，尽管 Pass@k 已被用于评估，但其与 RLVR 中大语言模型（LLM）探索能力之间的关联却鲜有关注。为了深入研究这一问题，我们首先将 Pass@k 作为奖励用于策略模型的训练（即“Pass@k 训练”），并观察其在提升探索能力方面的效果。接着，我们对 Pass@k 训练的优势进行了理论分析，得出了一个解析解，从而实现了高效且有效的训练过程。在此基础上，我们的分析揭示出探索与利用并非本质上相互矛盾的目标，反而可以相辅相成。此外，基于解析推导的 Pass@k 训练实质上等同于直接设计优势函数。受此启发，我们初步探索了 RLVR 中优势函数的设计方法，取得了令人鼓舞的结果，并指出了一个具有潜力的未来研究方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决强化学习与可验证奖励（RLVR）中探索与利用的平衡问题。当前方法（如Pass@1）导致策略偏向保守行为，收敛于局部最优。论文验证Pass@k是否能增强探索能力，并重新审视探索与利用之间的关系。
关键思路

论文提出使用Pass@k作为奖励机制进行策略训练（Pass@k Training），并通过分析推导其优势函数，发现探索与利用并非本质对立，而是可以相互促进。这种方法不同于传统设计策略的方式，而是直接设计优势函数，从而提升RLVR中的探索效率。
其它亮点

1. 实验采用Pass@k作为训练奖励，并观察到策略探索能力的显著提升。 2. 通过理论分析推导出Pass@k训练的优势函数，提出一种高效训练方法。 3. 揭示探索与利用可以协同增强，挑战了传统认知。 4. 初步探索了优势函数设计在RLVR中的潜力，显示出良好前景。 5. 为未来研究提供新方向：如何更直接地设计优势函数以优化探索策略。
相关研究

1. 《Deep Reinforcement Learning with a Compositional Reward Function》 2. 《Reward Design in Reinforcement Learning: Challenges and Opportunities》 3. 《On the Relationship Between Exploration and Exploitation in Reinforcement Learning》 4. 《Language Models as Policy Functions in Interactive Reinforcement Learning Settings》 5. 《Pass@k: A Metric for Evaluating Language Model Performance on Code Generation Tasks》

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问