MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning

2024年05月13日
  • 简介
    这篇文章介绍了一种将外部Python解释器与工具使用的大型语言模型(LLMs)相结合的方法,显著增强了开源LLMs的数学推理能力,而无需工具的方法则选择了另一条路:增加数学推理数据。然而,将上述两种研究路径相结合并发挥它们的优势的方法仍有待探索。在本文中,我们首先通过多角度数据增强方法添加新的数学问题,然后合成嵌套代码的解决方案。开放的LLMs(即Llama-2)在增强的数据集上进行微调,得到了结果模型MuMath-Code($\mu$-Math-Code)。在推理阶段,我们的MuMath-Code生成代码并与外部Python解释器交互以获得执行结果。因此,MuMath-Code利用了外部工具和数据增强的优势。为了充分利用我们增强的数据优势,我们提出了一个两阶段训练策略:在第一阶段,我们在纯CoT数据上微调Llama-2,得到一个中间模型,然后在第二阶段使用嵌套代码数据对其进行训练,得到最终的MuMath-Code。我们的MuMath-Code-7B在GSM8K上达到83.8,在MATH上达到52.4,而MuMath-Code-70B模型在开放方法中实现了新的最佳表现--在GSM8K上达到90.7%,在MATH上达到55.1%。广泛的实验验证了工具使用和数据增强的组合,以及我们的两阶段训练策略。我们发布了所提议的数据集以及相关代码供公众使用。
  • 图表
  • 解决问题
    论文旨在探索将工具使用和数据增强相结合的方法,以提高数学推理的能力。研究使用MuMath-Code模型,通过与外部Python解释器集成,生成代码嵌套的解决方案,以应对数学推理问题。
  • 关键思路
    论文提出了一种将数据增强和工具使用相结合的方法,通过生成代码嵌套的解决方案,提高数学推理的能力。研究使用了两阶段的训练策略,首先在CoT数据上进行微调,然后在代码嵌套数据上进行训练,以获得最终的MuMath-Code模型。
  • 其它亮点
    论文的亮点包括使用MuMath-Code模型与外部Python解释器集成,提高数学推理的能力;通过数据增强方法增加新的数学问题,扩展数据集;使用两阶段的训练策略,提高模型性能。研究使用了公开数据集,并提供了开源代码。
  • 相关研究
    在最近的相关研究中,有一些研究探索了使用数据增强方法来提高数学推理的能力,例如《Improving Math Word Problem Solving with Auxiliary Tasks》。另一些研究则关注于使用工具来增强数学推理的能力,例如《Neural Module Networks for Reasoning over Text》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论