Scaling Laws for Mixture Pretraining Under Data Constraints

向作者提问

NEW

简介

随着语言模型规模的扩大，其训练所需的数据量也随之增长；然而，许多目标数据源（例如低资源语言或特定专业领域）本身在数据规模上就存在天然限制。一种常见策略是将这类稀缺但极具价值的目标数据，与数量丰富的一般性数据进行混合训练。这一做法引发了一个根本性的权衡问题：若混合比例中目标数据占比过低，模型便难以充分接触目标领域；而若目标数据占比过高，则会导致相同样本被过度重复使用，从而带来边际收益递减，最终甚至引发过拟合。我们针对该权衡问题开展了系统性研究，实验覆盖了2000多次语言模型训练运行，涵盖多种模型规模、多种目标数据集规模，以及多种数据类型——包括多语种数据、领域专用数据，以及经过质量筛选的数据混合方案。在所有实验设置下，我们均发现：样本重复次数是影响目标领域性能的核心因素；并且，相较于单一数据源训练，混合训练对重复次数具有显著更高的容忍度——稀缺的目标语料可被重复使用15至20次，而最优重复次数则取决于目标数据规模、计算资源预算以及模型参数量。接下来，我们提出了一种“考虑重复次数的混合数据缩放定律”（repetition-aware mixture scaling law），该定律同时建模了目标数据中重复出现的词元（tokens）所带来的边际效益递减效应，以及通用数据所发挥的正则化作用。通过对该缩放定律进行优化，我们得以以理论为依据，高效计算出最优的混合数据配置方案，从而在数据受限的预训练场景下，为实际工程应用提供切实可行的混合数据配比建议。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在大语言模型扩展过程中，目标领域数据（如低资源语言或专业领域）稀缺，而简单混合通用数据与目标数据会导致性能权衡：目标数据过少则领域适应不足，过多则因重复导致过拟合与收益递减。论文系统验证了‘目标数据重复次数’是影响领域性能的核心变量，并探究其与模型规模、计算预算和数据量之间的定量关系——这是一个被长期经验性处理但缺乏系统实证与理论建模的新问题。
关键思路

提出‘重复感知的混合缩放律’（repetition-aware mixture scaling law），首次将目标数据重复次数显式建模为关键缩放维度，揭示混合训练对重复具有强鲁棒性（可安全重复15–20次），并利用通用数据的正则化效应缓解过拟合；该思路超越了传统数据配比启发式（如token比例固定）和单纯扩大数据量的范式，转向‘有效目标token数 = 原始token数 × 重复次数 × 衰减因子’的动态价值建模。
其它亮点

基于2000+次预训练实验（覆盖多语言、垂直领域、质量过滤等场景），严格控制模型规模（110M–7B）、目标数据量（1M–100M tokens）与计算预算；未依赖私有数据，主要使用公开语料（如mC4、OSCAR、PubMed Abstracts、The Stack）；代码尚未开源但方法完全可复现；亮点还包括发现‘最优重复次数随目标数据量减小而增大’的反直觉规律，以及通用数据在混合中扮演隐式正则器的关键角色；未来工作可延伸至重复调度策略（非均匀重复）、跨任务迁移中的重复泛化性、以及与课程学习/数据加权的联合建模。
相关研究

‘A Systematic Study of Data Mixing for Large Language Models’ (ICLR 2024); ‘Data Cascades in Large Language Models’ (NeurIPS 2023); ‘On the Optimal Data Mixtures for Language Modeling’ (ACL 2023); ‘Scaling Laws for Neural Language Models’ (Kaplan et al., 2020); ‘Chinchilla’s Wild Hunt: More Data, Less Parameters’ (Hoffmann et al., 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问