- 简介最近在大规模语言模型(LLM)预训练方面的进展表明,单纯增加数据量最终会导致收益递减,碰到数据瓶颈。为此,使用合成数据进行预训练已成为推动性能前沿的一种有前景的范式。尽管如此,影响合成数据质量的因素仍远未被充分理解。在本研究中,我们提出了 BeyondWeb,一个用于生成高质量合成预训练数据的框架。BeyondWeb 显著扩展了传统网络规模数据集的能力,在14项基准评估的平均表现上,分别比最先进的合成预训练数据集 Cosmopedia 和 Nemotron-CC 的高质量子集(Nemotron-Synth)高出最多5.1个百分点和2.6个百分点。与开放网络数据相比,BeyondWeb 最多可将训练速度提升至其7.7倍,比 Nemotron-Synth 快2.7倍。令人印象深刻的是,在相同 token 预算(1800亿 token)下,基于 BeyondWeb 训练的30亿参数模型表现优于基于 Cosmopedia 训练的80亿参数模型。我们还基于 BeyondWeb 得出了关于合成预训练数据的一些重要见解:其优势的来源、哪些数据值得重写以及如何重写、模型规模和家族对数据质量的影响等。总体而言,我们的研究表明,生成高质量的合成预训练数据并没有一劳永逸的解决方案。最佳效果需要对多个因素进行联合优化,这是一项需要严谨科学方法和实践经验的具有挑战性的任务。简单粗暴的方法可能仅能带来有限的提升,却可能付出高昂代价;而精心设计的方法则可能带来变革性的改进,BeyondWeb 就是一个例证。
-
- 图表
- 解决问题论文试图解决在大规模语言模型(LLM)预训练中,单纯扩大数据量导致收益递减的问题。合成数据虽然被提出作为解决方案,但其质量影响因素尚不明确。这是一个当前研究领域中亟需解决的新问题。
- 关键思路提出了一种名为BeyondWeb的合成数据生成框架,通过优化多个因素联合生成高质量的合成预训练数据,从而显著提升模型性能和训练效率。与现有方法相比,该思路强调系统性优化而非单一策略,具有更强的实用性和创新性。
- 其它亮点1. BeyondWeb在14个基准测试中平均优于Cosmopedia和Nemotron-Synth达5.1和2.6个百分点。 2. 训练效率显著提升,比开放网页数据快7.7倍,比Nemotron-Synth快2.7倍。 3. 一个3B参数模型在BeyondWeb上训练180B token即可超越8B参数模型在Cosmopedia上训练的性能。 4. 论文提供了关于合成数据生成的多个实用洞见,包括数据重写策略、模型大小与数据质量的关系等。 5. 强调合成数据生成需要严谨的科学方法和工程经验,没有单一的‘银弹’方案。
- 1. Cosmopedia: A Synthetic Pretraining Dataset for Large Language Models 2. Nemotron-CC: High-Quality Synthetic Data for Language Model Pretraining 3. Synthetic Data Generation via Prompting: Exploring the Trade-offs in LLM Training 4. Data Quality in Synthetic Corpora: An Empirical Study of Pretraining Effectiveness 5. Scaling Laws for Synthetic Data in Language Model Training
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流