PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models

简介

大型语言模型（LLMs）通常会在大量数据上进行训练，这些数据可能无意或有意地包含来自常用基准测试的数据。这种包含可能会导致模型在排行榜上得分虚高，但在实际应用中表现令人失望。为解决这个基准测试污染问题，我们首先提出了一组实际污染检测方法应遵循的要求。根据这些要求，我们引入了PaCoST，一种配对置信度显著性测试，用于有效地检测LLMs中的基准测试污染。我们的方法为每个数据构造具有相同分布的对应项，并对相应的置信度进行统计分析，以测试模型在原始基准测试下是否显著更自信。我们验证了PaCoST的有效性，并将其应用于流行的开源模型和基准测试。我们发现，我们测试的几乎所有模型和基准测试都存在不同程度的污染嫌疑。最后，我们呼吁新的LLM评估方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何检测Large language models（LLMs）中的benchmark污染问题，以提高模型在现实应用中的性能？
关键思路

提出PaCoST方法来检测LLMs中的benchmark污染，该方法使用对应数据的置信度进行统计分析，以测试模型是否在原始benchmark下具有显著更高的置信度。
其它亮点

PaCoST方法可以有效检测LLMs中的benchmark污染，并在多个开源模型和benchmark上进行了验证。研究表明，几乎所有测试的模型和benchmark都存在不同程度的污染问题。该论文提出了一组实用的检测要求，并呼吁新的LLM评估方法。
相关研究

最近的相关研究包括：1.《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》；2.《The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics》；3.《Measuring Massive Multitask Language Understanding》等。

PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models

提问交流

提问交流