CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

简介

在为预训练选择高质量数据方面，选择最佳子集是至关重要的，这将塑造语言模型下游任务的性能。一个主要的挑战在于确定这个最优子集，这个问题通常被认为是棘手的，因此需要可扩展和有效的启发式方法。在这项工作中，我们提出了一种数据选择方法CoLoR-Filter（条件损失减少过滤器），它利用经验贝叶斯方法来推导一个简单且计算有效的选择标准，该标准基于两个辅助模型的相对损失值。除了建模原理外，我们还在两个语言建模任务上对CoLoR-Filter进行了实证评估：（1）从C4中选择数据以适应在Books上的领域自适应和（2）从C4中选择数据以适应一套下游多项选择问题回答任务。我们展示了良好的扩展性，既可以更积极地进行子选择，也可以使用小的辅助模型为大型目标模型选择数据。作为一个主要的结果，使用一对150m参数的辅助模型选择的CoLoR-Filter数据可以训练一个1.2b参数的目标模型，使其与使用25b随机选择的令牌进行训练的1.2b参数模型在Books上的数据量减少25倍，在下游任务中减少11倍的数据量相匹配。代码：https://github.com/davidbrandfonbrener/color-filter-olmo过滤后的数据：https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文提出了一个数据选择方法，旨在解决语言模型预训练中的高质量数据选择问题。该方法如何进行数据选择？
关键思路

CoLoR-Filter方法利用两个辅助模型的相对损失值来推导一个简单且计算效率高的选择标准，从而实现数据筛选。
其它亮点

论文在两个语言模型任务上评估了CoLoR-Filter方法的效果，并展示了其在数据子选择和使用小的辅助模型来选择大目标模型的情况下的优势。CoLoR-Filter选择的数据可以用于训练1.2b参数的目标模型，其表现与使用25b随机选择的数据训练的1.2b参数模型相当。论文提供了代码和经过筛选的数据集。
相关研究

在该领域的相关研究包括：预训练语言模型的数据选择方法、基于经验贝叶斯的方法以及数据子选择技术。

CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

提问交流

提问交流