Time Travel in LLMs: Tracing Data Contamination in Large Language Models

解决问题:本篇论文旨在解决大型语言模型中的数据污染问题,即测试数据从下游任务中污染了训练数据,这可能是理解大型语言模型在其他任务上有效性的一个主要问题。这是一个新的问题。

关键思路:本文提出了一种简单而有效的方法来识别大型语言模型中的数据污染。该方法的核心在于首先在从小的随机样本中抽取的单个实例中识别潜在的污染;使用这些信息,该方法然后评估整个数据集分区是否受到污染。为了估计单个实例的污染情况,我们采用了“引导指令”:一个提示,包括数据集名称、分区类型和一个参考实例的初始段,要求LLM完成它。如果LLM的输出与参考实例的后一段完全或接近匹配,则将实例标记为污染。为了了解整个分区是否受到污染,我们提出了两个想法。第一个想法是,如果使用引导指令的平均重叠得分(由ROUGE或BLEURT测量)与不包括数据集和分区名称的一般指令相比具有统计显着更好的相似度,则将数据集分区标记为污染。第二个想法是,如果基于具有上下文学习提示的GPT-4的分类器将多个实例标记为污染,则将数据集标记为污染。我们的最佳方法在检测到七个包含训练和测试/验证分区的数据集时,与人类专家的手动评估相比,实现了92%至100%的准确度。此外,我们的发现表明,GPT-4受到AG News、WNLI和XSum数据集的污染。

其他亮点:本文提出的方法简单易行,且在多个数据集上的实验结果表明其高准确度。此外,本文提出的“引导指令”方法可以用于其他类似的任务中,具有一定的普适性。然而,本文并没有提供开源代码,这可能是未来研究的一个方向。

关于作者:Shahriar Golchin和Mihai Surdeanu分别来自美国亚利桑那州立大学的计算机科学系。Shahriar Golchin的代表作包括《A Simple and Effective Approach for Cross-Lingual Named Entity Recognition》;Mihai Surdeanu的代表作包括《The Conll-2012 Shared Task: Modeling Multilingual Unrestricted Coreference in OntoNotes》。

相关研究:近期其他相关的研究包括《On the Robustness of Language Models: A Large-Scale Study on Adversarial Examples》(Jiaji Huang, Shiyue Zhang, Yong Jiang等,来自南京大学计算机科学与技术系)和《The Curious Case of Neural Text Degeneration》(Alexey Romanov, Aleksandra Maria Piktus等,来自IBM T.J. Watson Research Center)。

论文摘要:本文的研究重点是大型语言模型(LLMs)中的数据污染问题,即下游任务的测试数据出现在LLMs的训练数据中,这可能是理解LLMs在其他任务上有效性的一个重要问题。研究人员提出了一种简单而有效的方法来识别LLMs中的数据污染。该方法的核心是从小的随机样本中识别单个实例中的潜在污染,然后使用这些信息来评估整个数据集分区是否受到污染。为了估计单个实例的污染程度,研究人员采用了“引导指令”的方法:即一个提示,包括数据集名称、分区类型和参考实例的初始段落,要求LLM完成它。如果LLM的输出与参考实例的后一段完全或接近匹配,那么就会标记该实例为受污染。为了了解整个分区是否受到污染,研究人员提出了两个想法。第一个想法是,如果使用引导指令的平均重叠得分(由ROUGE或BLEURT测量)与不包括数据集和分区名称的一般指令相比显著更好,则将数据集分区标记为受污染。第二个想法是,如果基于具有上下文学习提示的GPT-4的分类器将多个实例标记为受污染,则将数据集标记为受污染。在与人类专家手动评估对比时,我们最好的方法在检测LLM是否受到污染方面取得了92%至100%的准确率。此外,我们的研究结果表明,GPT-4受到AG News、WNLI和XSum数据集的污染。

内容中包含的图片若涉及版权问题,请及时与我们联系删除