Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models

2024年02月24日
  • 简介
    最近有关大型语言模型(LLMs)卓越能力的声明通常是通过在开放式基准测试上进行评估来支持的。考虑到LLMs训练数据的庞大规模和广泛来源,它可能明确或隐含地包含测试数据,导致LLMs更容易受到数据污染的影响。然而,由于训练数据的不透明性,模型的黑盒访问以及合成训练数据的快速增长,检测和减轻LLMs的数据污染面临着重大挑战。在本文中,我们提出了CDD,即通过LLMs的输出分布进行污染检测。CDD仅需要采样文本即可检测数据污染,通过识别LLMs输出分布的峰度。为了减轻评估中数据污染的影响,我们还提出了TED:基于LLMs输出分布的可信评估,通过对LLMs输出分布的校正。为了促进这项研究,我们引入了两个基准测试,即DetCon和ComiEval,用于数据污染检测和污染减轻评估任务。广泛的实验结果表明,CDD在准确性、F1得分和AUC指标方面相对于其他污染检测方法平均实现了21.8%-30.2%的相对改进,并且可以有效地检测由测试数据变体引起的污染。TED显著减轻了由于数据污染而导致的性能提高,涵盖了24个设置和21个污染程度,性能提高高达66.9%。在实际应用中,我们揭示了ChatGPT在HumanEval基准测试中可能遭受数据污染的高风险。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)在评估中容易受到数据污染的问题。
  • 关键思路
    CDD和TED是本文提出的两种方法,用于检测和减轻LLMs中的数据污染。CDD通过识别LLMs输出分布的峰度来检测数据污染。TED则通过修正LLMs输出分布来减轻数据污染的影响。
  • 其它亮点
    本文提出了两个基准测试数据集DetCon和ComiEval,用于数据污染检测和减轻评估的任务。实验结果表明,CDD和TED在减轻数据污染方面均取得了显著的效果。本文的实验设计详细,使用了多个数据集,并提供了开源代码。
  • 相关研究
    与本文相关的研究包括基于数据污染的领域自适应和模型鲁棒性的研究,例如“Domain Generalization via Model-Agnostic Learning of Semantic Features”和“Improving Robustness of Deep Neural Networks against Adversarial Attacks”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论