Scaling Laws for Mixture Pretraining Under Data Constraints

2026年05月12日
  • 简介
    随着语言模型规模的扩大,其训练所需的数据量也随之增长;然而,许多目标数据源(例如低资源语言或特定专业领域)本身在数据规模上就存在天然限制。一种常见策略是将这类稀缺但极具价值的目标数据,与数量丰富的一般性数据进行混合训练。这一做法引发了一个根本性的权衡问题:若混合比例中目标数据占比过低,模型便难以充分接触目标领域;而若目标数据占比过高,则会导致相同样本被过度重复使用,从而带来边际收益递减,最终甚至引发过拟合。我们针对该权衡问题开展了系统性研究,实验覆盖了2000多次语言模型训练运行,涵盖多种模型规模、多种目标数据集规模,以及多种数据类型——包括多语种数据、领域专用数据,以及经过质量筛选的数据混合方案。在所有实验设置下,我们均发现:样本重复次数是影响目标领域性能的核心因素;并且,相较于单一数据源训练,混合训练对重复次数具有显著更高的容忍度——稀缺的目标语料可被重复使用15至20次,而最优重复次数则取决于目标数据规模、计算资源预算以及模型参数量。接下来,我们提出了一种“考虑重复次数的混合数据缩放定律”(repetition-aware mixture scaling law),该定律同时建模了目标数据中重复出现的词元(tokens)所带来的边际效益递减效应,以及通用数据所发挥的正则化作用。通过对该缩放定律进行优化,我们得以以理论为依据,高效计算出最优的混合数据配置方案,从而在数据受限的预训练场景下,为实际工程应用提供切实可行的混合数据配比建议。
  • 作者讲解
  • 图表
  • 解决问题
    在大语言模型扩展过程中,目标领域数据(如低资源语言或专业领域)稀缺,而简单混合通用数据与目标数据会导致性能权衡:目标数据过少则领域适应不足,过多则因重复导致过拟合与收益递减。论文系统验证了‘目标数据重复次数’是影响领域性能的核心变量,并探究其与模型规模、计算预算和数据量之间的定量关系——这是一个被长期经验性处理但缺乏系统实证与理论建模的新问题。
  • 关键思路
    提出‘重复感知的混合缩放律’(repetition-aware mixture scaling law),首次将目标数据重复次数显式建模为关键缩放维度,揭示混合训练对重复具有强鲁棒性(可安全重复15–20次),并利用通用数据的正则化效应缓解过拟合;该思路超越了传统数据配比启发式(如token比例固定)和单纯扩大数据量的范式,转向‘有效目标token数 = 原始token数 × 重复次数 × 衰减因子’的动态价值建模。
  • 其它亮点
    基于2000+次预训练实验(覆盖多语言、垂直领域、质量过滤等场景),严格控制模型规模(110M–7B)、目标数据量(1M–100M tokens)与计算预算;未依赖私有数据,主要使用公开语料(如mC4、OSCAR、PubMed Abstracts、The Stack);代码尚未开源但方法完全可复现;亮点还包括发现‘最优重复次数随目标数据量减小而增大’的反直觉规律,以及通用数据在混合中扮演隐式正则器的关键角色;未来工作可延伸至重复调度策略(非均匀重复)、跨任务迁移中的重复泛化性、以及与课程学习/数据加权的联合建模。
  • 相关研究
    ‘A Systematic Study of Data Mixing for Large Language Models’ (ICLR 2024); ‘Data Cascades in Large Language Models’ (NeurIPS 2023); ‘On the Optimal Data Mixtures for Language Modeling’ (ACL 2023); ‘Scaling Laws for Neural Language Models’ (Kaplan et al., 2020); ‘Chinchilla’s Wild Hunt: More Data, Less Parameters’ (Hoffmann et al., 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问