InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

2024年08月09日
  • 简介
    最近,Chain-of-Thoughts(CoT)和Program-of-Thoughts(PoT)方法的进步极大地增强了语言模型的数学推理能力,促进了它们与LLMs的指令调整数据集的集成。然而,现有的大规模数据集创建方法需要大量的种子数据和高计算成本的数据合成,对可扩展性提出了重大挑战。我们介绍了InfinityMATH,一个可扩展的用于程序化数学推理的指令调整数据集。构建流程强调将数字与数学问题分离,以合成独立于数字的程序,实现高效灵活的扩展,并最小化对特定数值的依赖。使用开源语言和代码模型(如Llama2和CodeLlama)进行微调实验,证明了InfinityMATH的实际效益。这些微调模型在域内和域外基准测试中相对改进显著,平均范围从184.7%到514.3%。此外,这些模型在GSM8K +和MATH +基准测试中表现出高鲁棒性,这是测试集的增强版本,仅包含数字变化。InfinityMATH确保模型在更广泛的数学问题范围内更加多才多艺和有效。该数据可在https://huggingface.co/datasets/flagopen/InfinityMATH获得。
  • 图表
  • 解决问题
    解决问题:论文旨在解决大规模数据集构建中需要大量种子数据和高计算成本的问题,提出了一种可扩展的数学推理指令调整数据集InfinityMATH。
  • 关键思路
    关键思路:InfinityMATH构建管道将数字与数学问题分离,从而合成独立于数字的程序,实现高效灵活的扩展,同时最小化对特定数字值的依赖。
  • 其它亮点
    其他亮点:InfinityMATH数据集可用于优化语言和代码模型,如Llama2和CodeLlama,实验结果表明,这些模型在领域内外基准测试中都有显著的相对改进,平均范围从184.7%到514.3%。此外,这些模型在GSM8K +和MATH +基准测试中表现出高鲁棒性。数据集可在https://huggingface.co/datasets/flagopen/InfinityMATH上获取。
  • 相关研究
    相关研究:最近的相关研究包括使用CoT和PoT方法增强语言模型的数学推理能力,以及使用大规模数据集进行指令调整。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论