- 简介本文介绍了rStar,一种自我对弈的相互推理方法,可以显著提高小语言模型(SLMs)的推理能力,而无需微调或优越模型。rStar将推理分解为自我对弈的相互生成-鉴别过程。首先,目标SLM使用类似人类的推理操作扩展蒙特卡罗树搜索(MCTS),以构建更高质量的推理轨迹。接下来,另一个具有类似能力的SLM作为鉴别器验证目标SLM生成的每个轨迹。相互同意的推理轨迹被认为是相互一致的,因此更有可能是正确的。在五个SLMs上进行的大量实验表明,rStar可以有效地解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。值得注意的是,rStar将LLaMA2-7B的GSM8K准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提高到91.13%。代码可在https://github.com/zhentingqi/rStar获得。
-
- 图表
- 解决问题论文旨在通过rStar算法,提高小型语言模型的推理能力,解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA等。
- 关键思路rStar算法将推理分为自我对弈互相推理生成和鉴别过程,通过丰富的人类推理动作来构建高质量的推理轨迹,并用另一个具有类似能力的语言模型作为鉴别器,验证目标语言模型生成的每个轨迹,从而提高推理的准确性和一致性。与当前领域的研究相比,rStar算法在不需要微调或优越模型的情况下,显著提高了小型语言模型的推理能力。
- 其它亮点论文通过实验验证了rStar算法在各种推理问题上的有效性,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA等。实验结果表明,rStar算法可以将LLaMA2-7B的GSM8K准确率从12.51%提高到63.91%,将Mistral-7B的GSM8K准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的GSM8K准确率从74.53%提高到91.13%。研究者还开源了代码。
- 在该领域的相关研究包括:《Neural Logic Reasoning》、《Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding》、《A Game of 20 Questions: Using Meta-RL to Improve Deductive Reasoning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流