- 简介大型语言模型在数学推理的许多基准测试中取得了令人瞩目的成功。然而,越来越多的人担心,其中一些表现实际上反映了数据集污染,即类似于基准问题的数据泄漏到训练数据中,而不是真正的推理能力。为了严格调查这一说法,我们委托开发了“小学数学1000题”(GSM1k)。GSM1k旨在模仿已建立的GSM8k基准测试的风格和复杂性,后者是衡量基础数学推理的黄金标准。我们确保这两个基准测试在重要指标(如人类解题率、解题步骤数、答案大小等)上是可比较的。在对GSM1k进行评估时,我们观察到领先的开源和闭源LLM的准确率下降了多达13%,其中几个模型系列(例如Phi和Mistral)显示出几乎所有模型大小都存在系统过拟合的证据。同时,许多模型,特别是那些处于前沿的模型(例如Gemini/GPT/Claude),几乎没有过拟合的迹象。进一步的分析表明,模型从GSM8k生成示例的概率与其在GSM8k和GSM1k之间的性能差距之间存在正相关关系(Spearman's r^2=0.32),这表明许多模型可能已经部分记忆了GSM8k。
- 图表
- 解决问题本论文旨在探究大型语言模型在数学推理任务中的表现是否受到数据集污染的影响,以及是否存在过拟合现象。
- 关键思路论文通过设计Grade School Math 1000数据集,与已有的GSM8k数据集进行对比,发现部分模型存在严重的过拟合现象,而一些前沿模型则表现良好,同时发现模型在GSM8k数据集中的表现与其在GSM1k数据集中的表现有一定的相关性。
- 其它亮点论文使用了Grade School Math 1000数据集,与GSM8k数据集进行对比,发现部分模型存在严重的过拟合现象;同时,一些前沿模型表现良好,如Gemini/GPT/Claude;论文还发现模型在GSM8k数据集中的表现与其在GSM1k数据集中的表现有一定的相关性。
- 与本论文相关的研究包括使用大型语言模型进行数学推理的研究,如《GPT Understands, Too》、《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》等。
沙发等你来抢
去评论
评论
沙发等你来抢