rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

简介

我们推出了rStar-Math，以证明小型语言模型（SLMs）可以在不依赖于更高级模型蒸馏的情况下，匹敌甚至超越OpenAI o1的数学推理能力。rStar-Math通过使用蒙特卡洛树搜索（MCTS）进行“深度思考”来实现这一目标，其中数学策略SLM在基于SLM的过程奖励模型的指导下进行测试时搜索。 rStar-Math引入了三项创新来应对训练这两个SLM所面临的挑战：(1) 一种新颖的代码增强链式思维（CoT）数据合成方法，该方法通过广泛的MCTS展开生成逐步验证的推理轨迹，用于训练策略SLM；(2) 一种新颖的过程奖励模型训练方法，避免了简单的步骤级别评分标注，从而产生更有效的过程偏好模型（PPM）；(3) 一种自我进化方案，在此方案中，策略SLM和PPM从零开始构建并迭代进化，以提高推理能力。通过四轮自我进化，以及为747,000个数学问题合成了数百万个解决方案，rStar-Math将SLM的数学推理能力提升到了最先进水平。在MATH基准测试中，它将Qwen2.5-Math-7B的准确率从58.8%提升到90.0%，并将Phi3-mini-3.8B的准确率从41.4%提升到86.4%，分别超过了o1-preview 4.5%和0.9%。在美国数学奥林匹克竞赛（AIME）中，rStar-Math平均解决了53.3%（即15题中的8题），其表现位于最优秀的20%高中数学学生之列。代码和数据将在https://github.com/microsoft/rStar上提供。
图表
解决问题

论文试图解决小语言模型（SLMs）在数学推理能力上的不足，旨在验证通过引入深度思考机制（如蒙特卡洛树搜索，MCTS），SLMs能否匹敌甚至超越OpenAI o1的数学推理能力。这是一个具有挑战性的问题，因为之前的研究通常依赖于从更强大的模型中蒸馏知识来提升性能。
关键思路

关键思路是利用蒙特卡洛树搜索（MCTS）使SLMs进行‘深度思考’，并引入三个创新点：(1) 代码增强的CoT数据合成方法，用于生成训练策略SLM所需的逐步验证推理路径；(2) 过程奖励模型训练方法，避免了简单的步骤级评分标注；(3) 自进化配方，即从头开始迭代地进化策略SLM和过程偏好模型以提高推理能力。这种方法不同于以往直接使用更大或更强的预训练模型的做法，而是通过改进算法和训练方法来提升模型性能。
其它亮点

实验设计非常严谨，通过4轮自进化和数百万个合成解决方案，rStar-Math显著提升了两个SLM在数学问题上的解答准确率。特别是在MATH基准测试中，Qwen2.5-Math-7B和Phi3-mini-3.8B的表现分别从58.8%提升到90.0%，以及从41.4%提升到86.4%，超过了o1-preview。此外，在美国数学奥林匹克竞赛(AIME)上，rStar-Math能够解决平均53.3%的问题，相当于前20%顶尖高中生的成绩。该研究还承诺开源其代码和数据，为后续研究提供了宝贵的资源。
相关研究

近期相关研究包括《Scaling Laws for Autoregressive Models》、《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》等，这些研究主要探讨了大规模语言模型的能力扩展及链式思维提示对推理能力的影响。然而，rStar-Math的独特之处在于它专注于小型语言模型，并且通过创新的训练方法实现了显著的性能提升。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论