- 简介优质的预训练数据通常被视为高性能语言模型的关键。然而,由于需要进行数据选择实验的昂贵预训练运行,因此了解预训练数据的进展缓慢。我们提出了一个框架,可以避免这些成本,并选择高质量的预训练数据,而不需要进行任何我们自己的LLM(语言模型)训练。我们的工作基于一个简单的观察:许多预训练文本上的LLM损失与下游基准性能相关,选择高相关文档是一种有效的预训练数据选择方法。我们建立了一个新的统计框架,以困惑度-基准相关性的估计为中心,并使用来自Open LLM排行榜上数以万计的Web域的文本的90个LLM样本进行数据选择。在8个基准测试的160M参数规模的受控预训练实验中,我们的方法在每个基准测试中都优于DSIR,同时与DataComp-LM中找到的最佳数据选择器相匹配,这是一个手工制作的二元分类器。
- 图表
- 解决问题如何在不进行昂贵的预训练运行的情况下选择高质量的预训练数据?
- 关键思路使用基于困惑度-基准性能相关性估计的统计框架进行数据选择,选择与下游基准性能高度相关的文档作为预训练数据。
- 其它亮点论文使用90个Open LLM Leaderboard上的LLM模型和数万个Web域上的文本进行了控制预训练实验,证明了使用困惑度-基准性能相关性估计的统计框架进行数据选择的有效性。该方法在8个基准测试中优于DSIR,并与DataComp-LM中的最佳数据选择器相匹配。
- 与困惑度-基准性能相关性估计相关的研究包括《On the Use of Empirical Entropy in Neural Language Models》、《On the State of the Art of Evaluation in Neural Language Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢