Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

向作者提问

NEW

简介

本文介绍了rStar，一种自我对弈的相互推理方法，可以显著提高小语言模型（SLMs）的推理能力，而无需微调或优越模型。rStar将推理分解为自我对弈的相互生成-鉴别过程。首先，目标SLM使用类似人类的推理操作扩展蒙特卡罗树搜索（MCTS），以构建更高质量的推理轨迹。接下来，另一个具有类似能力的SLM作为鉴别器验证目标SLM生成的每个轨迹。相互同意的推理轨迹被认为是相互一致的，因此更有可能是正确的。在五个SLMs上进行的大量实验表明，rStar可以有效地解决各种推理问题，包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。值得注意的是，rStar将LLaMA2-7B的GSM8K准确率从12.51％提高到63.91％，将Mistral-7B的准确率从36.46％提高到81.88％，将LLaMA3-8B-Instruct的准确率从74.53％提高到91.13％。代码可在https://github.com/zhentingqi/rStar获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过rStar算法，提高小型语言模型的推理能力，解决各种推理问题，包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA等。
关键思路

rStar算法将推理分为自我对弈互相推理生成和鉴别过程，通过丰富的人类推理动作来构建高质量的推理轨迹，并用另一个具有类似能力的语言模型作为鉴别器，验证目标语言模型生成的每个轨迹，从而提高推理的准确性和一致性。与当前领域的研究相比，rStar算法在不需要微调或优越模型的情况下，显著提高了小型语言模型的推理能力。
其它亮点

论文通过实验验证了rStar算法在各种推理问题上的有效性，包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA等。实验结果表明，rStar算法可以将LLaMA2-7B的GSM8K准确率从12.51%提高到63.91%，将Mistral-7B的GSM8K准确率从36.46%提高到81.88%，将LLaMA3-8B-Instruct的GSM8K准确率从74.53%提高到91.13%。研究者还开源了代码。
相关研究

在该领域的相关研究包括：《Neural Logic Reasoning》、《Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding》、《A Game of 20 Questions: Using Meta-RL to Improve Deductive Reasoning》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问