MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning

简介

这篇文章介绍了一种将外部Python解释器与工具使用的大型语言模型（LLMs）相结合的方法，显著增强了开源LLMs的数学推理能力，而无需工具的方法则选择了另一条路：增加数学推理数据。然而，将上述两种研究路径相结合并发挥它们的优势的方法仍有待探索。在本文中，我们首先通过多角度数据增强方法添加新的数学问题，然后合成嵌套代码的解决方案。开放的LLMs（即Llama-2）在增强的数据集上进行微调，得到了结果模型MuMath-Code（$\mu$-Math-Code）。在推理阶段，我们的MuMath-Code生成代码并与外部Python解释器交互以获得执行结果。因此，MuMath-Code利用了外部工具和数据增强的优势。为了充分利用我们增强的数据优势，我们提出了一个两阶段训练策略：在第一阶段，我们在纯CoT数据上微调Llama-2，得到一个中间模型，然后在第二阶段使用嵌套代码数据对其进行训练，得到最终的MuMath-Code。我们的MuMath-Code-7B在GSM8K上达到83.8，在MATH上达到52.4，而MuMath-Code-70B模型在开放方法中实现了新的最佳表现--在GSM8K上达到90.7％，在MATH上达到55.1％。广泛的实验验证了工具使用和数据增强的组合，以及我们的两阶段训练策略。我们发布了所提议的数据集以及相关代码供公众使用。
图表
解决问题

论文旨在探索将工具使用和数据增强相结合的方法，以提高数学推理的能力。研究使用MuMath-Code模型，通过与外部Python解释器集成，生成代码嵌套的解决方案，以应对数学推理问题。
关键思路

论文提出了一种将数据增强和工具使用相结合的方法，通过生成代码嵌套的解决方案，提高数学推理的能力。研究使用了两阶段的训练策略，首先在CoT数据上进行微调，然后在代码嵌套数据上进行训练，以获得最终的MuMath-Code模型。
其它亮点

论文的亮点包括使用MuMath-Code模型与外部Python解释器集成，提高数学推理的能力；通过数据增强方法增加新的数学问题，扩展数据集；使用两阶段的训练策略，提高模型性能。研究使用了公开数据集，并提供了开源代码。
相关研究

在最近的相关研究中，有一些研究探索了使用数据增强方法来提高数学推理的能力，例如《Improving Math Word Problem Solving with Auxiliary Tasks》。另一些研究则关注于使用工具来增强数学推理的能力，例如《Neural Module Networks for Reasoning over Text》。

MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning

评论