A Careful Examination of Large Language Model Performance on Grade School Arithmetic

2024年05月01日
  • 简介
    大型语言模型(LLMs)在许多数学推理基准测试中取得了令人瞩目的成功。然而,越来越多的人担心,其中一些表现实际上反映了数据集污染,即类似于基准测试问题的数据泄漏到训练数据中,而不是真正的推理能力。为了严格调查这一说法,我们委托制作了Grade School Math 1000(GSM1k)。GSM1k旨在模仿已建立的GSM8k基准测试的风格和复杂性,后者是衡量初等数学推理的黄金标准。我们确保这两个基准测试在人类解决率、解决步骤数量、答案大小等重要指标上是可比较的。在评估领先的开源和闭源LLMs时,我们观察到GSM1k的准确率下降了高达13%,其中几个模型系列(例如Phi和Mistral)显示出几乎所有模型大小都有系统的过拟合迹象。与此同时,许多模型,特别是那些处于前沿的模型(例如Gemini/GPT/Claude),显示出最小的过拟合迹象。进一步的分析表明,模型生成GSM8k示例的概率与其在GSM8k和GSM1k之间的性能差之间存在正相关关系(Spearman's r^2=0.32),这表明许多模型可能已经部分记忆了GSM8k。
  • 图表
  • 解决问题
    论文旨在验证数学推理基准测试数据集的污染程度对大型语言模型性能的影响,并探究模型是否部分记忆了基准测试数据集。
  • 关键思路
    通过设计一个与已有基准测试数据集相似的Grade School Math 1000(GSM1k)数据集,研究发现一些模型的准确率下降了13%,并且部分模型出现了系统性过拟合的情况。同时,研究还发现模型在生成GSM8k数据集上的概率与GSM1k和GSM8k之间的性能差距之间存在正相关关系。
  • 其它亮点
    论文使用了Grade School Math 1000(GSM1k)数据集,设计了实验来验证基准测试数据集的污染程度对大型语言模型性能的影响。研究发现一些模型存在系统性过拟合的情况,并且模型在生成GSM8k数据集上的概率与性能差距之间存在正相关关系。
  • 相关研究
    与本文相关的研究包括:《GPT-3: Language Models are Few-Shot Learners》、《The Curious Case of Neural Text Degeneration》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论