- 简介自我纠正是大型语言模型(LLMs)非常理想的能力,但现代LLMs中发现自我纠正能力往往不够有效。现有的自我纠正训练方法要么需要多个模型,要么依赖于更强大的模型或其他形式的监督。为此,我们开发了一种多轮在线强化学习(RL)方法SCoRe,使用完全自动生成的数据显著提高LLM的自我纠正能力。为构建SCoRe,我们首先展示了离线模型生成的纠正痕迹的监督微调(SFT)的变体不足以灌输自我纠正行为。特别是,我们观察到通过SFT训练要么受到训练数据和模型自身响应之间的分布不匹配的影响,要么隐含地偏好于仅适用于测试时通常无效的某种纠正行为模式。SCoRe通过在模型自己生成的自我纠正痕迹分布下进行训练,并使用适当的正则化来引导学习过程,以学习在测试时有效的自我纠正策略,而不仅仅是为给定提示拟合高回报响应。这种正则化规定在基础模型上运行第一阶段的RL来生成一个策略初始化,这个初始化不太容易崩溃,然后使用奖励奖金来增强训练期间的自我纠正。当应用于Gemini 1.0 Pro和1.5 Flash模型时,我们发现SCoRe在MATH和HumanEval基准测试中实现了最先进的自我纠正性能,将基础模型的自我纠正能力分别提高了15.6%和9.1%。
- 图表
- 解决问题论文旨在通过自我纠错训练,显著提高大型语言模型的自我纠错能力,解决现有方法在此方面的效果不佳的问题。
- 关键思路论文提出了一种名为SCoRe的多轮在线强化学习方法,使用完全自动生成的数据,通过在模型自己生成的自我纠错跟踪分布下进行训练,并使用适当的正则化来引导学习过程,使其在测试时学习一种有效的自我纠错策略。
- 其它亮点论文的实验结果表明,SCoRe在MATH和HumanEval基准测试中,将Gemini 1.0 Pro和1.5 Flash模型的自我纠错能力分别提高了15.6%和9.1%。此外,SCoRe还使用了基于奖励的增强学习,并使用奖励奖励来放大自我纠错的效果,从而更好地训练模型。
- 与此论文相关的研究包括使用多个模型或其他形式的监督来训练自我纠正能力的方法,以及使用强化学习来训练自我纠正能力的方法。相关论文包括《Multi-Task Learning for Multiple Language Tasks with a Single Shared Transformer》和《Learning to Correct Text Across Tasks and Domains》等。
沙发等你来抢
去评论
评论
沙发等你来抢