- 简介数据是大型语言模型(LLMs)的基石,但并非所有数据都对模型学习有用。精心选择的数据可以更好地引出LLMs的能力,且计算开销更小。大多数方法集中于评估数据选择中单个样本的质量,而忽略了样本之间的组合效应。即使每个样本的质量都很好,它们的组合也可能由于其内在的同质性或矛盾性而不利于教授LLMs。本文旨在揭示LLMs性能与数据选择之间的潜在关系。受LLMs信息压缩性质的启发,我们揭示了一个“熵定律”,它将LLMs性能与数据压缩比和第一轮训练损失相连接,这反映了数据集中信息冗余和内在知识的掌握程度。通过理论推导和实证评估,我们发现模型性能与训练数据的压缩比呈负相关,而训练数据的压缩比通常会导致较低的训练损失。基于熵定律的发现,我们提出了一种非常高效和通用的数据选择方法,名为\textbf{ZIP},旨在优先选择展现低压缩比的数据子集。基于一种多阶段的贪心算法,我们可以选择多样化的数据,从而获得具有令人满意的多样性的良好数据子集。我们进行了广泛的实验,以验证熵定律和ZIP在不同LLMs骨干和对齐阶段的优越性。我们还提出了一个有趣的熵定律应用,可以在模型训练开始时检测潜在的性能风险。
- 图表
- 解决问题研究如何精选训练语言模型的数据集,以提高模型性能和减少计算开销。
- 关键思路通过探索语言模型性能与数据压缩比和首轮训练损失之间的关系,提出了一种高效的数据选择方法ZIP,该方法优先选择压缩比低的数据子集。
- 其它亮点ZIP方法在多个语言模型的实验中都表现出了优越性能,能够快速且有效地选择出具有多样性的数据子集。研究还发现,训练数据的压缩比与模型性能呈负相关。
- 在数据选择方面,之前的方法主要关注单个样本的质量,而忽略了样本之间的组合效应。此外,近期的研究也探索了使用数据压缩来评估数据集的质量。
沙发等你来抢
去评论
评论
沙发等你来抢