NEW

The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data

Christina Baek ,

Ricardo Pio Monti ,

David Schwab ,

Amro Abbas ,

Rishabh Adiga ,

Cody Blakeney ,

Maximilian Böther ,

Paul Burstein ,

Aldo Gael Carranza ,

Alvin Deng ,

Parth Doshi ,

Vineeth Dorna ,

Alex Fang ,

Tony Jiang ,

Siddharth Joshi ,

Brett W. Larsen ,

Jason Chan Lee ,

Katherine L. Mentzer ,

Luke Merrick ,

Haakon Mongstad ,

Fan Pan ,

Anshuman Suri ,

Darren Teh ,

Jason Telanoff ,

Jack Urbanek ,

Zhengping Wang ,

Josh Wills ,

Haoli Yin ,

Aditi Raghunathan ,

J. Zico Kolter ,

Bogdan Gaza ,

Ari Morcos ,

Matthew Leavitt ,

Pratyush Maini

热度 582

2026年03月17日

简介

现实世界中的模型部署，往往要求模型在数据稀缺的特定领域内具备强劲性能。通常，从业者会通过微调（finetuning）来使模型专业化，但这种方法容易导致模型在该领域上过拟合，并遗忘其原有的通用知识。我们研究了一种简单策略——专用预训练（Specialized Pretraining, SPT）：将原本仅用于微调的小规模领域数据集，在预训练阶段即引入，并作为全部训练token中的一部分反复使用。在三个专业领域（ChemPile、MusicPile 和 ProofPile）上的实验表明，相较于标准预训练，SPT 不仅提升了模型在目标领域的性能，还在后续微调后更好地保留了其通用能力。在我们的实验中，为达到同等领域性能，SPT 最多可将所需预训练 token 数量减少至原来的 1.75 倍。当目标领域在原始预训练语料中代表性严重不足时，这一优势进一步扩大：对于与网络文本差异显著的领域，一个参数量为 10 亿（1B）的 SPT 模型，其表现甚至优于参数量达 30 亿（3B）的标准预训练模型。除上述实证优势外，我们还推导出刻画过拟合现象的标度律（overfitting scaling laws），以帮助从业者根据既定的预训练计算预算，科学地确定最优的领域数据重复次数。我们的分析揭示了一种“微调者的谬误”（finetuner’s fallacy）：尽管微调看似是实现领域适配成本最低的路径，但若能在预训练阶段就引入专用领域数据，则可显著延展该数据的价值。SPT 一方面通过多次暴露降低过拟合程度，从而提升领域专用性能；另一方面通过减轻微调过程中的知识遗忘，从而增强通用领域性能；最终，在推理阶段进行均摊计算时，SPT 能以更少的参数量和更低的总计算开销，取得更优的整体效果。因此，要想最大化领域数据的利用效率，应尽可能早地将其融入训练流程——即从预训练初始阶段便开始使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在数据稀缺的窄域（如化学、音乐、数学证明）中部署大模型时，标准微调（finetuning）导致的领域过拟合与通用能力遗忘问题；验证‘将少量领域数据提前融入预训练阶段（而非仅用于微调）能更高效地提升领域性能并保留泛化能力’这一假设。这不是全新问题，但现有工作多聚焦于后训练微调或适配器方法，忽视了预训练阶段对领域数据的早期利用。
关键思路

提出‘专业化预训练’（Specialized Pretraining, SPT）：在标准预训练过程中，将小规模领域数据集（如ChemPile）以固定比例重复混入，作为总token预算的一部分（例如占1–5%），而非留到微调阶段单独使用。其新意在于挑战‘微调是最经济的领域适配方式’这一普遍认知（作者称之为‘微调者的谬误’），从数据利用效率和缩放规律角度证明：早介入、低频次、多轮次暴露于领域数据，比单次高强度微调更能平衡专业性与通用性。
其它亮点

在ChemPile、MusicPile、ProofPile三大专业领域上系统验证SPT，对比标准预训练+微调基线；SPT将达相同领域性能所需的预训练token减少最多1.75倍；在领域与web文本分布远离时（如ProofPile），1B参数SPT模型超越3B标准预训练模型；首次推导出领域数据重复率与过拟合程度的解析缩放律，为计算预算约束下的最优重复比例提供理论指导；论文强调工程实践启示——‘越早引入领域数据，效用越大’；未明确提及开源代码，但数据集均为已公开社区基准（ChemPile/MusicPile/ProofPile均开源）；值得深入的方向包括：SPT与混合专家（MoE）、指令微调的协同设计，以及跨领域SPT的迁移可组合性。
相关研究

LoRA: Low-Rank Adaptation of Large Language Models; QLoRA: Efficient Finetuning of Quantized LLMs; Domain-Adaptive Pretraining for Medical NLP (ACL 2022); BioMedLM: A Biomedical Language Model Pretrained on PubMed Abstracts; CodeT5+: Open Code Generation with a Unified Large Language Model; The Flamingo Paper: Visual Language Modeling with Frozen Image Encoders and Large Language Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问