- 简介大型语言模型(LLMs)通常会在大量数据上进行训练,这些数据可能无意或有意地包含来自常用基准测试的数据。这种包含可能会导致模型在排行榜上得分虚高,但在实际应用中表现令人失望。为解决这个基准测试污染问题,我们首先提出了一组实际污染检测方法应遵循的要求。根据这些要求,我们引入了PaCoST,一种配对置信度显著性测试,用于有效地检测LLMs中的基准测试污染。我们的方法为每个数据构造具有相同分布的对应项,并对相应的置信度进行统计分析,以测试模型在原始基准测试下是否显著更自信。我们验证了PaCoST的有效性,并将其应用于流行的开源模型和基准测试。我们发现,我们测试的几乎所有模型和基准测试都存在不同程度的污染嫌疑。最后,我们呼吁新的LLM评估方法。
-
- 图表
- 解决问题如何检测Large language models(LLMs)中的benchmark污染问题,以提高模型在现实应用中的性能?
- 关键思路提出PaCoST方法来检测LLMs中的benchmark污染,该方法使用对应数据的置信度进行统计分析,以测试模型是否在原始benchmark下具有显著更高的置信度。
- 其它亮点PaCoST方法可以有效检测LLMs中的benchmark污染,并在多个开源模型和benchmark上进行了验证。研究表明,几乎所有测试的模型和benchmark都存在不同程度的污染问题。该论文提出了一组实用的检测要求,并呼吁新的LLM评估方法。
- 最近的相关研究包括:1.《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》;2.《The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics》;3.《Measuring Massive Multitask Language Understanding》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流