Improving Pretraining Data Using Perplexity Correlations

2024年09月09日
  • 简介
    优质的预训练数据通常被视为高性能语言模型的关键。然而,由于需要进行数据选择实验的昂贵预训练运行,因此了解预训练数据的进展缓慢。我们提出了一个框架,可以避免这些成本,并选择高质量的预训练数据,而不需要进行任何我们自己的LLM(语言模型)训练。我们的工作基于一个简单的观察:许多预训练文本上的LLM损失与下游基准性能相关,选择高相关文档是一种有效的预训练数据选择方法。我们建立了一个新的统计框架,以困惑度-基准相关性的估计为中心,并使用来自Open LLM排行榜上数以万计的Web域的文本的90个LLM样本进行数据选择。在8个基准测试的160M参数规模的受控预训练实验中,我们的方法在每个基准测试中都优于DSIR,同时与DataComp-LM中找到的最佳数据选择器相匹配,这是一个手工制作的二元分类器。
  • 图表
  • 解决问题
    如何在不进行昂贵的预训练运行的情况下选择高质量的预训练数据?
  • 关键思路
    使用基于困惑度-基准性能相关性估计的统计框架进行数据选择,选择与下游基准性能高度相关的文档作为预训练数据。
  • 其它亮点
    论文使用90个Open LLM Leaderboard上的LLM模型和数万个Web域上的文本进行了控制预训练实验,证明了使用困惑度-基准性能相关性估计的统计框架进行数据选择的有效性。该方法在8个基准测试中优于DSIR,并与DataComp-LM中的最佳数据选择器相匹配。
  • 相关研究
    与困惑度-基准性能相关性估计相关的研究包括《On the Use of Empirical Entropy in Neural Language Models》、《On the State of the Art of Evaluation in Neural Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论