JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

2024年05月23日
  • 简介
    数学推理是大型语言模型(LLMs)在实际应用中的重要能力。为了增强这种能力,现有的工作要么收集大规模的与数学相关的文本进行预训练,要么依赖更强大的LLMs(例如GPT-4)来合成大量的数学问题。这两种工作通常都会导致高昂的训练或合成成本。为了降低成本,我们提出了一种高效的方法,基于开源可用的文本,训练一个小型的LLM用于数学问题合成,以高效地生成足够高质量的预训练数据。为了实现这一目标,我们使用GPT-4创建了一个数据集,将其数据合成能力转化为小型LLM。具体来说,我们根据人类教育阶段制定了一组提示,以指导GPT-4合成涵盖不同数学知识和难度水平的问题。此外,我们采用基于梯度的影响估计方法来选择最有价值的与数学相关的文本。这两个数据集都被输入到GPT-4中,用于创建知识蒸馏数据集,以训练小型LLM。我们利用它合成了600万个数学问题,用于预训练我们的JiuZhang3.0模型,该模型只需要调用GPT-4 API 9.3k次,并在46亿数据上进行预训练。实验结果表明,JiuZhang3.0在几个数学推理数据集上都实现了最先进的性能,在自然语言推理和工具操作设置下都表现出色。我们的代码和数据将在\url{https://github.com/RUCAIBox/JiuZhang3.0}上公开发布。
  • 图表
  • 解决问题
    本论文旨在提高大型语言模型(LLMs)在数学推理方面的能力,并提出了一种有效的方法来训练小型LLM进行数学问题综合,以便高效生成足够高质量的预训练数据。
  • 关键思路
    论文通过使用GPT-4创建数据集来指导小型LLM进行数学问题综合,从而提高其数学推理能力。同时,采用基于梯度的影响估计方法选择最有价值的数学相关文本,将两者输入GPT-4以创建知识蒸馏数据集,用于预训练小型LLM。
  • 其它亮点
    论文的亮点包括使用开源文本创建数据集以降低成本,以及采用梯度影响估计方法选择有价值的文本。实验结果表明,该方法在自然语言推理和工具操作设置下均取得了最先进的数学推理性能。作者还公开了代码和数据集。
  • 相关研究
    在这个领域中,最近的相关研究包括使用大规模数学相关文本进行预训练的方法和使用更强大的LLMs进行数学问题综合的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论