Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models

2025年06月05日
  • 简介
    扩展定律预测,大型语言模型的性能会随着模型规模和数据规模的增加而提升。在实际操作中,预训练依赖于大规模的网络爬取,几乎使用了互联网上目前所有公开可用的数据源。然而,这种自然数据的增长速度无法与计算资源的供应增长保持一致。此外,高质量文本的可用性更加有限:数据过滤流程通常会移除初始网络抓取内容的高达99%,以达到最先进的水平。为了解决预训练扩展中的“数据瓶颈”问题,我们的研究探索了如何转换和再利用现有过滤过程中被丢弃的数据。我们提出了REWIRE(通过引导重写回收网络数据),这是一种将低质量文档丰富化的方法,使其能够成为训练中有用的数据。这反过来使我们能够在最终的预训练集中增加合成数据的比例。在DCLM基准测试的1B、3B和7B规模实验中,混合高质量原始文本和我们重写的文本分别在22个多样化任务上带来了1.0、1.3和2.5个百分点的性能提升,相较于仅使用过滤后的网络数据进行训练。同时,使用原始-合成数据混合进行训练的效果也优于访问两倍网络数据的情况。通过进一步分析,我们发现混合数据中约82%的文本来自对原本会被丢弃的低质量文档的转换。REWIRE还超越了其他生成合成数据的相关方法,包括维基百科风格的同义改写、问答合成和知识提取。这些结果表明,回收网络文本可能是一种简单且有效的扩大预训练数据规模的方法。
  • 图表
  • 解决问题
    该论文试图解决大型语言模型训练中面临的‘数据墙’问题,即高质量训练数据的增长速度跟不上计算资源的增长速度。这是一个在大规模预训练领域逐渐显现的重要问题,但尚未得到充分探索。
  • 关键思路
    论文提出了一种名为REWIRE的方法,通过重写和转换被现有过滤流程丢弃的低质量文档,将其转化为对训练有益的合成数据。这种方法不仅增加了训练数据的多样性,还有效利用了原本会被废弃的数据资源,从而提升了模型性能。相比传统的数据过滤或直接使用原始数据,这一思路更具创新性。
  • 其它亮点
    实验表明,在1B、3B和7B规模下,混合使用高质量原始文本和REWIRE生成的合成文本可以分别提升1.0、1.3和2.5个百分点的性能。此外,研究发现约82%的合成文本来源于低质量文档的转换,这证明了REWIRE的有效性。论文还在DCLM基准上进行了广泛测试,并与多种生成合成数据的方法(如Wikipedia-style paraphrasing、问答合成等)进行了对比,显示其优越性。代码和数据集是否开源未明确提及,但未来可以进一步研究如何优化重写算法以及扩展到多语言场景。
  • 相关研究
    近期相关工作包括:1) 数据增强方法,如《Electra: Pre-Training Text Encoders as Discriminators Rather Than Generators》;2) 合成数据生成技术,如《Massive: A Million-Scale Instruction-Tuning Dataset》;3) 数据过滤优化,如《CCNet: Clean Crawled Corpora for Massive Scale Language Modeling》。这些研究主要集中在提高数据质量和效率,而REWIRE则提供了一种全新的数据再利用视角。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论