- 简介公共基准在大型语言模型的评估中发挥着至关重要的作用。然而,数据污染可能会导致性能夸大,使它们不可靠用于模型比较。因此,检测污染并估计其对测量性能的影响非常关键。不幸的是,现有的检测方法很容易被规避,并且无法量化污染。为了克服这些限制,我们提出了一个新的污染定义,即人为夸大和非泛化基准性能,而不是将基准样本包含在训练数据中。这个视角使我们能够检测到任何具有夸大表现的模型,即不能推广到重新表述的样本、来自同一分布的合成样本或同一任务的不同基准。基于这个见解,我们开发了ConStat,一种可靠地检测和量化污染的统计方法,通过比较主要和参考基准相对于一组参考模型的性能来实现。我们在对不同的模型架构、基准和污染场景进行广泛评估的基础上,证明了ConStat的有效性,并发现多个流行模型包括Mistral、Llama、Yi和前三名的Open LLM Leaderboard模型存在高水平的污染。
- 图表
- 解决问题检测和量化公共基准数据集中的数据污染问题,以提高大型语言模型的可靠性。
- 关键思路通过人工智能模型在不同数据集上的表现来检测数据污染问题,并提出了一种新的数据污染定义和统计方法。
- 其它亮点论文提出了一种新的数据污染定义和解决方法,实验结果表明多个热门模型存在高水平的数据污染问题,该方法可以用于评估大型语言模型的可靠性。
- 最近的相关研究包括OpenAI的GPT和GPT-2模型,以及Google的BERT模型等。
沙发等你来抢
去评论
评论
沙发等你来抢