- 简介妨碍基准分数的解释,评估数据污染已成为大型语言模型(LLM)评估中的一个日益增长的担忧,并且研究其影响已成为一个活跃的研究领域。虽然评估数据污染直观上容易理解,但精确定义哪些样本应被视为污染以及其如何影响基准分数却出乎意料地困难。我们认为,这些问题应该一起解决,并且可以通过检查模型是否从标记为污染的示例中受益来评估污染指标。我们提出了一种新的分析方法,称为ConTAM,并通过大规模调查现有的和新颖的基于n-gram的污染指标,涵盖了13个基准测试和来自两个不同家族的7个模型,展示了ConTAM可以更好地理解评估数据污染及其影响。我们发现,污染的影响可能比最近发布的LLM报告中所描述的要大得多,并且在不同规模上对模型的影响也不同。我们还发现,仅考虑最长的污染子字符串比考虑所有污染子字符串的联合提供更好的信号,并且进行模型和基准特定的阈值分析大大提高了结果的特异性。最后,我们探讨了超参数选择的影响,发现在其他因素中,使用更大的n值和忽略在预训练数据中出现频率较低的匹配会导致许多假阴性。通过ConTAM,我们提供了一种方法,将评估数据污染指标基于下游效果进行实证验证。通过我们的探索,我们揭示了评估数据污染如何影响LLM,并提供了在进行污染分析时重要的考虑因素的见解。我们在论文的结尾部分详细讨论了这些内容,并为未来的工作提供了具体的建议。
- 图表
- 解决问题该论文旨在解决大型语言模型(LLM)评估中的数据污染问题。具体来说,它探讨了如何定义和识别受污染的数据样本,以及这些样本如何影响基准测试分数。这是一个日益受到关注的问题,因为数据污染可能会导致对模型性能的错误估计。
- 关键思路论文提出了一种新的分析方法ConTAM,用于更好地理解和评估数据污染的影响。与现有方法不同,ConTAM不仅考虑了数据污染的检测,还评估了模型从标记为污染的样例中受益的程度。这种方法能够更精确地衡量污染对模型性能的实际影响。
- 其它亮点论文通过大规模调查13个基准测试和7个来自两个不同家族的模型,展示了ConTAM的有效性。研究发现,数据污染对不同规模的模型有不同的影响,并且只考虑最长的污染子串比考虑所有污染子串的联合提供了更好的信号。此外,论文还讨论了超参数选择对污染检测的影响,指出较大的n值和忽略在预训练数据中不常见的匹配会导致许多假阴性。论文提供了开源代码,以便其他研究人员可以复现和扩展这些结果。
- 近年来,关于LLM评估数据污染的研究逐渐增多。相关研究包括《Measuring Contamination in Large Language Models》和《Evaluating the Impact of Data Contamination on NLP Benchmarks》。这些研究主要集中在如何检测污染样本,但较少关注这些样本对模型性能的具体影响。ConTAM的提出填补了这一空白,提供了一个更全面的分析框架。
沙发等你来抢
去评论
评论
沙发等你来抢