- 简介我们研究了大型语言模型评估中的一个基本问题,即我们称之为测试任务训练。与训练测试数据、泄漏或数据污染等不当做法不同,测试任务训练不是一种不当行为。相反,这个术语描述了一组越来越多的技术,以在语言模型的预训练阶段包含与任务相关的数据。我们证明,测试任务训练混淆了相对模型评估和关于新兴能力的声明。我们认为,一个模型家族似乎优于另一个模型家族的优越性可能是由于在测试任务训练的不同程度造成的。为此,我们提出了一种有效的方法,通过在评估之前在相同的任务相关数据上微调每个比较模型来调整测试任务训练。然后,我们展示了一旦我们调整测试任务训练,新兴行为的实例大部分都会消失。这也适用于报告的无法通过评估指标的选择来解释的新兴行为实例。我们的工作提倡了对大型语言模型评估的新视角,对基准测试和新兴能力的研究具有广泛的影响。
- 图表
- 解决问题论文试图解决的问题是大语言模型评估中的训练测试任务问题。该问题指的是在预训练阶段中包含任务相关数据的一组技术,这可能会影响相对模型评估和新兴能力的声明。
- 关键思路论文提出了一种有效的方法来解决训练测试任务问题,即在评估之前在相同的任务相关数据上微调每个模型进行比较。研究表明,训练测试任务可能导致某个模型系列的表现优于另一个模型系列,这种现象可以通过我们提出的方法进行调整。此外,论文还表明,训练测试任务的影响可能会导致新兴行为的出现,但这种现象在调整后会消失。
- 其它亮点论文的实验设计了一种有效的方法来解决训练测试任务问题,该方法在评估之前在相同的任务相关数据上微调每个模型进行比较。实验使用了多个数据集,并提供了开源代码。此外,论文还表明,训练测试任务的影响可能会导致新兴行为的出现,但这种现象在调整后会消失。
- 最近在这个领域中,还有一些相关的研究,如《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》、《The Curious Case of Neural Text Degeneration》等。
沙发等你来抢
去评论
评论
沙发等你来抢