- 简介最近的LLM自训练方法主要依赖于LLM生成响应,并将具有正确输出答案的响应作为训练数据进行过滤。这种方法通常会产生低质量的微调训练集(例如,不正确的计划或中间推理)。在本文中,我们开发了一种强化自训练方法,称为ReST-MCTS*,它基于将过程奖励指导与树搜索MCTS*相结合,以收集更高质量的推理轨迹和逐步价值以训练策略和奖励模型。ReST-MCTS*通过基于树搜索的强化学习规避了通常用于训练过程奖励的逐步手动注释:给定正确答案,ReST-MCTS*能够通过估计此步骤能够帮助导致正确答案的概率来推断正确的过程奖励。这些推断的奖励具有双重作用:它们作为进一步细化过程奖励模型的价值目标,同时也促进了选择高质量轨迹以进行策略模型自我训练。我们首先展示了ReST-MCTS*中的树搜索策略在相同的搜索预算内相对于之前的LLM推理基线(如Best-of-N和Tree-of-Thought)实现了更高的准确性。然后,我们展示了通过使用这个树搜索策略搜索的轨迹作为训练数据,我们可以连续多次增强三种语言模型,并且优于其他自我训练算法,如ReST$^\text{EM}$和Self-Rewarding LM。
- 图表
- 解决问题本文旨在解决LLM自我训练方法中存在的低质量训练数据问题,提出了一种基于强化学习的自我训练方法ReST-MCTS*,并验证其有效性。
- 关键思路ReST-MCTS*方法结合了过程奖励指导和树搜索MCTS*,通过估计每个步骤对于正确答案的概率来推断正确的过程奖励,避免了通常用于训练过程奖励的逐步手动注释,同时用推断出的奖励作为价值目标来训练策略和奖励模型,提高了训练数据的质量。
- 其它亮点实验结果表明,ReST-MCTS*方法相比于其他LLM推理基线方法在相同搜索预算下能够取得更高的准确率;而使用ReST-MCTS*方法搜索得到的高质量推理轨迹作为训练数据,可以连续多次增强三个语言模型,超过其他自我训练算法,如ReST$^ ext{EM}$和Self-Rewarding LM。
- 近期在这个领域中的相关研究包括:Best-of-N和Tree-of-Thought等LLM推理基线方法,以及ReST$^ ext{EM}$和Self-Rewarding LM等自我训练算法。
沙发等你来抢
去评论
评论
沙发等你来抢