Large Language Model-guided Document Selection

简介

大型语言模型（LLM）的预训练消耗了越来越多的计算资源，但最近的研究表明，仔细选择文档可以在仅使用一小部分浮点运算（FLOPs）的情况下实现可比较的模型质量。受到一些研究的启发，这些研究表明，特定领域的训练文档选择实际上是一个可解释的过程 [Gunasekar等人，2023]，以及研究表明，经过指导微调的LLM能够熟练地进行零-shot数据标记[Gilardi等人，2023]，我们探索了一种有前途的可扩展通用领域文档选择方向；我们使用LLM作为文档评分器，将质量标签提炼成分类器模型，并将其自动应用于一个大型、已经经过严格筛选的网络爬虫衍生的语料库。在这个分类器的指导下，我们删除了75%的语料库，并在剩余的数据上训练LLM。多个基准测试的结果表明：1.过滤使我们能够在最多使用70%的FLOPs的情况下将模型质量与完整语料库训练的模型进行质量匹配；2.更强大的LLM标注器和分类器模型可以带来更好的结果，并且对标注器的提示不太敏感；3.上下文学习有助于提高能力较弱的标注模型的性能。在所有情况下，我们使用开源数据集、模型、配方和评估框架，以便社区可以重现结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何通过精选文档来减少大规模语言模型预训练的计算量，同时保证模型质量？
关键思路

使用提示的语言模型作为文档评分器，将质量标签提取为分类器模型，并自动应用于大规模的网络爬取衍生语料库，以此来过滤掉75%的数据。在过滤后的数据上进行预训练，从而减少计算量。
其它亮点

实验结果表明，过滤掉一部分数据后，仍然可以使模型在多个基准测试上达到与完整语料库训练模型相当的质量，而计算量最多只有完整语料库的70%。此外，更强大的语言模型标注器和分类器模型可以带来更好的结果，并且在上下文学习的帮助下，可以提高性能。论文使用了开源数据集、模型、配方和评估框架，可供社区复现。
相关研究

相关研究包括：Gunasekar等人的研究探讨了特定领域训练文档选择的可解释性过程；Gilardi等人的研究表明，经过指导微调的语言模型可以作为零样本数据标签器。

Large Language Model-guided Document Selection

提问交流

提问交流