Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning

Yuxi Xie ,
Anirudh Goyal ,
Wenyue Zheng ,
Min-Yen Kan ,
Timothy P. Lillicrap ,
Kenji Kawaguchi ,
Michael Shieh
2024年05月01日
  • 简介
    我们提出了一种方法,旨在通过受AlphaZero成功策略启发的迭代偏好学习过程,增强大型语言模型(LLM)的推理能力。我们的工作利用蒙特卡罗树搜索(MCTS)来迭代地收集偏好数据,利用其前瞻能力将实例级别的奖励分解为更细粒度的步骤级别信号。为了增强中间步骤的一致性,我们结合结果验证和逐步自我评估,不断更新新生成数据的质量评估。所提出的算法采用直接偏好优化(DPO)使用这些新生成的步骤级别偏好数据来更新LLM策略。理论分析揭示了使用基于策略采样的数据对于成功的自我改进至关重要。在各种算术和常识推理任务上进行了广泛评估,展示了与现有模型相比的显著性能提升。例如,我们的方法在GSM8K、MATH和SciQ上优于Mistral-7B监督微调(SFT)基线,分别将准确度提高到80.7%(+4.8%)、32.2%(+3.3%)和88.5%(+7.7%)。此外,我们的研究探讨了训练和推理计算的权衡,提供了有关如何有效地最大化性能增益的见解。
  • 图表
  • 解决问题
    论文旨在通过迭代偏好学习过程来增强大型语言模型的推理能力,解决常识推理和算术推理等任务中的问题。
  • 关键思路
    论文提出了一种基于蒙特卡罗树搜索的迭代偏好学习算法,利用其先知能力将实例级奖励分解为更细粒度的步骤级信号,并结合结果验证和逐步自我评估来提高中间步骤的一致性。使用直接偏好优化方法来更新模型策略,利用新生成的步骤级偏好数据。
  • 其它亮点
    论文在多个算术和常识推理任务中展示了出色的性能提升,超过了现有模型的表现,并提供了关于训练和推理计算的权衡的见解。论文还提供了数据集和开源代码,值得进一步深入研究。
  • 相关研究
    最近的相关研究包括:《AlphaGo: Mastering the game of Go with deep neural networks and tree search》、《AlphaZero: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论