OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

简介

最近的研究显示，合成生成的数据集对于训练大型语言模型（LLMs）尤其是获取特定技能方面有巨大的潜力。目前的大规模数学教学调优数据集，如MetaMathQA（Yu等人，2024年）和MAmmoTH（Yue等人，2024年），是使用商业限制性许可的闭源LLMs的输出构建的。限制开源LLMs在这些数据生成流程中使用的一个关键原因是最佳闭源LLMs（如GPT-4）和最佳开源LLMs之间的数学技能差距很大。在最近开源LLMs的进展基础上，结合我们提出的提示新颖性和一些蛮力扩展，我们构建了OpenMathInstruct-1，一个包含180万个问题-解决方案对的数学教学调优数据集。该数据集是通过使用最近发布的、许可宽松的Mixtral模型，合成GSM8K和MATH两个流行的数学推理基准的代码解释器解决方案构建的。我们的最佳模型OpenMath-CodeLlama-70B，在OpenMathInstruct-1的子集上训练，GSM8K得分为84.6%，MATH得分为50.7%，与最佳的gpt-distilled模型相当竞争。我们在商业许可下发布我们的代码、模型和OpenMathInstruct-1数据集。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

构建一个数学教学调整数据集，以用于训练大型语言模型。

关键思路

使用开源语言模型和代码解释器合成解决方案，构建一个数学教学调整数据集。

其它亮点

使用Mixtral模型合成1.8M个问题-解决方案对，构建了OpenMathInstruct-1数据集。最佳模型OpenMath-CodeLlama-70B在GSM8K上达到84.6％的得分，在MATH上达到50.7％的得分。代码、模型和数据集都以商业许可证发布。

OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

提问交流

提问交流