- 简介本文提出了一种名为R$^3$的学习推理的新方法,它通过逆向课程强化学习(RL)仅使用结果监督来实现大型语言模型的过程监督的好处。在将RL应用于复杂推理的核心挑战是确定一系列行动,以获得积极奖励并提供适当的监督以进行优化。结果监督为最终结果提供稀疏奖励,而不确定错误位置,而过程监督提供逐步奖励,但需要广泛的手动注释。R$^3$通过从正确演示中学习来克服这些限制。具体而言,R$^3$逐步将推理的起始状态从演示的末尾滑动到其开头,从而促进了所有阶段的模型探索。因此,R$^3$建立了一个逐步课程,允许结果监督提供步级信号并精确地确定错误位置。使用Llama2-7B,我们的方法在八个推理任务上平均超过了RL基线4.1个点。值得注意的是,在基于程序的GSM8K推理中,它在三个主干模型上超过了基线4.2个点,并且没有任何额外的数据,Codellama-7B + R$^3$的表现与更大的模型或闭源模型相当。
-
- 图表
- 解决问题本论文旨在通过逆向课程强化学习(RL)学习推理,解决大型语言模型中只有结果监督而缺乏过程监督的问题。
- 关键思路论文提出了一种从正确演示中学习的逐步课程方法,通过将演示的起始状态从结束状态向后滑动,建立逐步课程,使结果监督能够提供步骤级别的信号并精确定位错误。
- 其它亮点论文在八个推理任务上超过了RL基线平均4.1分,并在GSM8K的基于程序的推理中,在三个骨干模型上超过了基线4.2分,而没有任何额外的数据。Codellama-7B + R$^3$的表现与更大的模型或闭源模型相当。
- 与本论文相关的研究包括使用RL进行推理的先前工作,以及使用演示进行模型训练的其他工作。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流