Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

2024年08月12日
  • 简介
    本文介绍了rStar,一种自我对弈的相互推理方法,可以显著提高小语言模型(SLMs)的推理能力,而无需微调或优越模型。rStar将推理分解为自我对弈的相互生成-鉴别过程。首先,目标SLM使用类似人类的推理操作扩展蒙特卡罗树搜索(MCTS),以构建更高质量的推理轨迹。接下来,另一个具有类似能力的SLM作为鉴别器验证目标SLM生成的每个轨迹。相互同意的推理轨迹被认为是相互一致的,因此更有可能是正确的。在五个SLMs上进行的大量实验表明,rStar可以有效地解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。值得注意的是,rStar将LLaMA2-7B的GSM8K准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提高到91.13%。代码可在https://github.com/zhentingqi/rStar获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过rStar算法,提高小型语言模型的推理能力,解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA等。
  • 关键思路
    rStar算法将推理分为自我对弈互相推理生成和鉴别过程,通过丰富的人类推理动作来构建高质量的推理轨迹,并用另一个具有类似能力的语言模型作为鉴别器,验证目标语言模型生成的每个轨迹,从而提高推理的准确性和一致性。与当前领域的研究相比,rStar算法在不需要微调或优越模型的情况下,显著提高了小型语言模型的推理能力。
  • 其它亮点
    论文通过实验验证了rStar算法在各种推理问题上的有效性,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA等。实验结果表明,rStar算法可以将LLaMA2-7B的GSM8K准确率从12.51%提高到63.91%,将Mistral-7B的GSM8K准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的GSM8K准确率从74.53%提高到91.13%。研究者还开源了代码。
  • 相关研究
    在该领域的相关研究包括:《Neural Logic Reasoning》、《Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding》、《A Game of 20 Questions: Using Meta-RL to Improve Deductive Reasoning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问