- 简介这篇论文表明,以前人们认为只有在非常大的规模或需要进行大量与数学相关的预训练时,常规语言模型才会展现出数学能力。但是,本文表明,仅使用常规预训练的LLaMA-2 7B模型已经展现出了强大的数学能力,这可以从其在GSM8K和MATH基准测试中,从256个随机生成的答案中选择最佳答案时所达到的惊人准确率97.7%和72.0%中看出。当前基础模型的主要问题是难以稳定地激发其固有的数学能力。值得注意的是,对于第一个答案,GSM8K和MATH基准测试的准确率分别降至49.5%和7.9%。我们发现,简单地扩大SFT数据可以显著提高生成正确答案的可靠性。然而,公开数学问题的稀缺性限制了大规模扩展的潜力。为了克服这个限制,我们使用合成数据,这种方法几乎与真实数据一样有效,并且在扩大到约一百万个样本时没有明显的饱和现象。这种简单的方法使用LLaMA-2 7B模型在GSM8K和MATH上实现了82.6%和40.6%的准确率,分别比之前的模型提高了14.2%和20.8%。我们还提供了关于不同推理复杂度和错误类型的扩展行为的见解。
- 图表
- 解决问题本文试图证明在常规预训练的LLaMA-2 7B模型中,数学能力已经得到了很好的展现。同时,文章还试图解决如何更好地激发模型的数学能力的问题。
- 关键思路通过扩大数据规模和使用合成数据,可以提高LLaMA-2 7B模型的数学能力,同时还提供了不同推理复杂性和错误类型的扩展行为的见解。
- 其它亮点实验结果表明,使用扩大的数据集和合成数据,LLaMA-2 7B模型在GSM8K和MATH基准测试中分别取得了82.6%和40.6%的准确率,超过了之前的模型。文章还提供了关于不同推理复杂性和错误类型的扩展行为的见解。
- 最近的相关研究包括:《GPT-3: Language Models are Few-Shot Learners》、《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》等。
沙发等你来抢
去评论
评论
沙发等你来抢