A Careful Examination of Large Language Model Performance on Grade School Arithmetic

2024年05月01日
  • 简介
    大型语言模型(LLMs)在许多数学推理基准测试中取得了令人印象深刻的成功。然而,越来越多的人担心,其中一些表现实际上反映了数据集污染,即类似于基准测试问题的数据泄漏到训练数据中,而不是真正的推理能力。为了严格调查这一说法,我们委托进行了Grade School Math 1000(GSM1k)测试。GSM1k旨在模仿已建立的GSM8k基准测试的风格和复杂性,GSM8k是衡量小学数学推理的金标准。我们确保这两个基准测试在重要指标(如人类解决率、解决步骤数、答案数量等)上是可比较的。在对GSM1k进行评估时,我们发现领先的开源和闭源LLMs的准确率下降了高达13%,其中一些模型族(例如Phi和Mistral)显示出几乎所有模型尺寸都存在系统性过拟合的证据。与此同时,许多模型,特别是那些处于前沿的模型(例如Gemini / GPT / Claude),显示出最小的过拟合迹象。进一步的分析表明,模型生成GSM8k示例的概率与其在GSM8k和GSM1k之间的性能差距之间存在正相关关系(Spearman的r ^ 2 = 0.32),这表明许多模型可能已经部分记忆了GSM8k。
  • 解决问题
    研究LLMs在数学推理中可能存在的数据污染问题
  • 关键思路
    通过设计新的基准测试GSM1k来检验LLMs在数学推理能力上的真实表现,发现一些模型存在过拟合问题,且很多模型可能部分记忆了GSM8k数据集
  • 其它亮点
    论文设计了新的基准测试GSM1k来检验LLMs在数学推理中的表现,发现一些模型存在过拟合问题,且很多模型可能部分记忆了GSM8k数据集;实验使用了多个开源和闭源LLMs,并对比了它们在GSM1k和GSM8k上的表现;论文还分析了模型生成GSM8k样本的概率与它们在GSM1k和GSM8k之间表现差距之间的关系;需要进一步研究如何减轻数据污染的影响,以及如何更好地评估LLMs在数学推理中的表现
  • 相关研究
    最近的相关研究包括:Benchmarking Neural Network Robustness to Common Corruptions and Perturbations(ICLR2020)、Measuring Massive Multitask Language Understanding(ICLR2020)等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论