Optimal Splitting of Language Models from Mixtures to Specialized Domains

向作者提问

NEW

简介

语言模型之所以能在各类知识、语言及推理任务上展现出卓越性能，主要得益于其预训练所使用的数据在规模与多样性上的巨大优势。当前主流的训练范式为两阶段流程：首先在全部语料库上进行通用预训练，随后在该语料库中筛选出的高质量、专业化子集上开展专门化训练。在多领域场景下，这一范式通常体现为针对各个专业化领域分别持续预训练多个独立模型，即所谓“分模型训练”（split model training）。我们提出一种新方法：在通用预训练语料库上独立地对多个模型分别开展预训练，并借助缩放定律（scaling laws）来确定预训练与后续专门化训练之间最优的计算资源分配方案。本方法能够精确预测参数量为 N 的模型在使用 D 个预训练 token 和 D′ 个专门化训练 token 时的损失值，并可外推至更大参数规模及更多训练 token 的情形。将该方法应用于语言模型训练后，在不同模型规模与不同计算预算条件下，其在常识知识与推理类基准测试上的性能均实现了稳定提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在多领域场景下高效分配计算资源（预训练与领域专业化训练的token预算）以最大化语言模型在常识推理等下游任务上的性能，而非沿用固定两阶段范式或为每个领域单独训练模型（split model training）
关键思路

提出基于缩放定律（scaling laws）的统一预测框架，能准确建模模型规模N、预训练token数D和专业化token数D'对最终损失的影响，并据此动态优化跨领域计算分配；首次将缩放定律从单任务/单域扩展到多域联合预训练+专业化决策问题，支持跨模型尺寸和token量级的可靠外推
其它亮点

在CommonsenseQA、PIQA、StrategyQA等主流常识与推理基准上实现跨模型尺寸（70M–3B）和计算预算（10^18–10^21 FLOPs）的一致提升；无需修改架构或训练流程，仅通过缩放律驱动的预算重分配即获增益；实验覆盖真实多领域语料（Wikipedia、Books、Code、Math等），但未提及开源代码；值得深入的方向包括：缩放律在稀疏专家模型中的适配、领域间知识迁移的隐式建模、以及面向LLM Agent的动态专业化token调度
相关研究

Chinchilla: The Greener Foundation Model (Hoffmann et al., 2022); A Systematic Evaluation of Large Language Models of Code (Li et al., 2023); Scaling Laws for Neural Language Models (Kaplan et al., 2020); Multi-Task Scaling Laws (Wei et al., 2022); Domain-Specialized Pretraining via Data Mixing (Gururangan et al., 2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问