NEW

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

Pratyush Maini ,

Vineeth Dorna ,

Parth Doshi ,

Aldo Carranza ,

Fan Pan ,

Jack Urbanek ,

Paul Burstein ,

Alex Fang ,

Alvin Deng ,

Amro Abbas ,

Brett Larsen ,

Cody Blakeney ,

Charvi Bannur ,

Christina Baek ,

Darren Teh ,

David Schwab ,

Haakon Mongstad ,

Haoli Yin ,

Josh Wills ,

Kaleigh Mentzer ,

Luke Merrick ,

Ricardo Monti ,

Rishabh Adiga ,

Siddharth Joshi ,

Spandan Das ,

Zhengping Wang ,

Bogdan Gaza ,

Ari Morcos ,

Matthew Leavitt

热度 17

2025年08月14日

简介

最近在大规模语言模型（LLM）预训练方面的进展表明，单纯增加数据量最终会导致收益递减，碰到数据瓶颈。为此，使用合成数据进行预训练已成为推动性能前沿的一种有前景的范式。尽管如此，影响合成数据质量的因素仍远未被充分理解。在本研究中，我们提出了 BeyondWeb，一个用于生成高质量合成预训练数据的框架。BeyondWeb 显著扩展了传统网络规模数据集的能力，在14项基准评估的平均表现上，分别比最先进的合成预训练数据集 Cosmopedia 和 Nemotron-CC 的高质量子集（Nemotron-Synth）高出最多5.1个百分点和2.6个百分点。与开放网络数据相比，BeyondWeb 最多可将训练速度提升至其7.7倍，比 Nemotron-Synth 快2.7倍。令人印象深刻的是，在相同 token 预算（1800亿 token）下，基于 BeyondWeb 训练的30亿参数模型表现优于基于 Cosmopedia 训练的80亿参数模型。我们还基于 BeyondWeb 得出了关于合成预训练数据的一些重要见解：其优势的来源、哪些数据值得重写以及如何重写、模型规模和家族对数据质量的影响等。总体而言，我们的研究表明，生成高质量的合成预训练数据并没有一劳永逸的解决方案。最佳效果需要对多个因素进行联合优化，这是一项需要严谨科学方法和实践经验的具有挑战性的任务。简单粗暴的方法可能仅能带来有限的提升，却可能付出高昂代价；而精心设计的方法则可能带来变革性的改进，BeyondWeb 就是一个例证。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在大规模语言模型（LLM）预训练中，单纯扩大数据量导致收益递减的问题。合成数据虽然被提出作为解决方案，但其质量影响因素尚不明确。这是一个当前研究领域中亟需解决的新问题。
关键思路

提出了一种名为BeyondWeb的合成数据生成框架，通过优化多个因素联合生成高质量的合成预训练数据，从而显著提升模型性能和训练效率。与现有方法相比，该思路强调系统性优化而非单一策略，具有更强的实用性和创新性。
其它亮点

1. BeyondWeb在14个基准测试中平均优于Cosmopedia和Nemotron-Synth达5.1和2.6个百分点。 2. 训练效率显著提升，比开放网页数据快7.7倍，比Nemotron-Synth快2.7倍。 3. 一个3B参数模型在BeyondWeb上训练180B token即可超越8B参数模型在Cosmopedia上训练的性能。 4. 论文提供了关于合成数据生成的多个实用洞见，包括数据重写策略、模型大小与数据质量的关系等。 5. 强调合成数据生成需要严谨的科学方法和工程经验，没有单一的‘银弹’方案。
相关研究

1. Cosmopedia: A Synthetic Pretraining Dataset for Large Language Models 2. Nemotron-CC: High-Quality Synthetic Data for Language Model Pretraining 3. Synthetic Data Generation via Prompting: Exploring the Trade-offs in LLM Training 4. Data Quality in Synthetic Corpora: An Empirical Study of Pretraining Effectiveness 5. Scaling Laws for Synthetic Data in Language Model Training

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问