Benchmarking Benchmark Leakage in Large Language Models

2024年04月29日
  • 简介
    随着预训练数据的不断扩大使用,基准数据集泄漏现象变得越来越突出,这加剧了训练过程的不透明性和当代大型语言模型中通常未公开包含监督数据的问题。这个问题扭曲了基准的有效性,促进了潜在的不公平比较,阻碍了该领域的健康发展。为了解决这个问题,我们引入了一个检测流程,利用困惑度和N-gram准确度两个简单可扩展的度量标准来衡量模型在基准上的预测精度,以识别潜在的数据泄漏。通过在数学推理的背景下分析31个大型语言模型,我们揭示了大量的训练和测试集误用情况,导致可能不公平的比较。这些发现促使我们提出了关于模型文档、基准设置和未来评估的几个建议。值得注意的是,我们提出了“基准透明卡”,以鼓励清晰记录基准使用情况,促进大型语言模型的透明和健康发展。我们已经公开了我们的排行榜、流程实现和模型预测,以促进未来的研究。
  • 作者讲解
  • 图表
  • 解决问题
    解决数据泄露问题,提高基准测试的公平性和透明度
  • 关键思路
    使用Perplexity和N-gram accuracy等指标检测数据泄露,提出Benchmark Transparency Card来促进基准测试的透明度
  • 其它亮点
    论文使用简单有效的指标检测数据泄露问题,发现了大量的训练和测试集的不当使用,提出Benchmark Transparency Card来促进透明度,实验结果和代码公开可用
  • 相关研究
    最近的相关研究包括:Towards Transparent and Reproducible NLP Research with OpenMind, The Pile: An 800GB Dataset of Diverse Text for Language Modeling
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问