The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data

2026年03月17日
  • 简介
    现实世界中的模型部署,往往要求模型在数据稀缺的特定领域内具备强劲性能。通常,从业者会通过微调(finetuning)来使模型专业化,但这种方法容易导致模型在该领域上过拟合,并遗忘其原有的通用知识。我们研究了一种简单策略——专用预训练(Specialized Pretraining, SPT):将原本仅用于微调的小规模领域数据集,在预训练阶段即引入,并作为全部训练token中的一部分反复使用。在三个专业领域(ChemPile、MusicPile 和 ProofPile)上的实验表明,相较于标准预训练,SPT 不仅提升了模型在目标领域的性能,还在后续微调后更好地保留了其通用能力。在我们的实验中,为达到同等领域性能,SPT 最多可将所需预训练 token 数量减少至原来的 1.75 倍。当目标领域在原始预训练语料中代表性严重不足时,这一优势进一步扩大:对于与网络文本差异显著的领域,一个参数量为 10 亿(1B)的 SPT 模型,其表现甚至优于参数量达 30 亿(3B)的标准预训练模型。除上述实证优势外,我们还推导出刻画过拟合现象的标度律(overfitting scaling laws),以帮助从业者根据既定的预训练计算预算,科学地确定最优的领域数据重复次数。我们的分析揭示了一种“微调者的谬误”(finetuner’s fallacy):尽管微调看似是实现领域适配成本最低的路径,但若能在预训练阶段就引入专用领域数据,则可显著延展该数据的价值。SPT 一方面通过多次暴露降低过拟合程度,从而提升领域专用性能;另一方面通过减轻微调过程中的知识遗忘,从而增强通用领域性能;最终,在推理阶段进行均摊计算时,SPT 能以更少的参数量和更低的总计算开销,取得更优的整体效果。因此,要想最大化领域数据的利用效率,应尽可能早地将其融入训练流程——即从预训练初始阶段便开始使用。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在数据稀缺的窄域(如化学、音乐、数学证明)中部署大模型时,标准微调(finetuning)导致的领域过拟合与通用能力遗忘问题;验证‘将少量领域数据提前融入预训练阶段(而非仅用于微调)能更高效地提升领域性能并保留泛化能力’这一假设。这不是全新问题,但现有工作多聚焦于后训练微调或适配器方法,忽视了预训练阶段对领域数据的早期利用。
  • 关键思路
    提出‘专业化预训练’(Specialized Pretraining, SPT):在标准预训练过程中,将小规模领域数据集(如ChemPile)以固定比例重复混入,作为总token预算的一部分(例如占1–5%),而非留到微调阶段单独使用。其新意在于挑战‘微调是最经济的领域适配方式’这一普遍认知(作者称之为‘微调者的谬误’),从数据利用效率和缩放规律角度证明:早介入、低频次、多轮次暴露于领域数据,比单次高强度微调更能平衡专业性与通用性。
  • 其它亮点
    在ChemPile、MusicPile、ProofPile三大专业领域上系统验证SPT,对比标准预训练+微调基线;SPT将达相同领域性能所需的预训练token减少最多1.75倍;在领域与web文本分布远离时(如ProofPile),1B参数SPT模型超越3B标准预训练模型;首次推导出领域数据重复率与过拟合程度的解析缩放律,为计算预算约束下的最优重复比例提供理论指导;论文强调工程实践启示——‘越早引入领域数据,效用越大’;未明确提及开源代码,但数据集均为已公开社区基准(ChemPile/MusicPile/ProofPile均开源);值得深入的方向包括:SPT与混合专家(MoE)、指令微调的协同设计,以及跨领域SPT的迁移可组合性。
  • 相关研究
    LoRA: Low-Rank Adaptation of Large Language Models; QLoRA: Efficient Finetuning of Quantized LLMs; Domain-Adaptive Pretraining for Medical NLP (ACL 2022); BioMedLM: A Biomedical Language Model Pretrained on PubMed Abstracts; CodeT5+: Open Code Generation with a Unified Large Language Model; The Flamingo Paper: Visual Language Modeling with Frozen Image Encoders and Large Language Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问