Overtrained Language Models Are Harder to Fine-Tune

2025年03月24日
  • 简介
    大规模语言模型在不断增长的标记预算上进行预训练,假设更好的预训练性能可以转化为更优的下游模型表现。然而,在本研究中,我们挑战了这一假设,并证明过度的预训练可能会使模型更难微调,从而导致最终性能下降。我们将这种现象称为灾难性过训。例如,基于3万亿标记预训练的指令调优OLMo-1B模型,在多个标准LLM基准测试上的表现比其基于2.3万亿标记预训练的版本差超过2%。通过受控实验和理论分析,我们发现灾难性过训源于预训练参数对修改(包括但不限于微调)的广泛敏感性系统性增加。我们的研究结果呼吁重新审视预训练设计,以考虑模型在下游任务中的适应能力。
  • 作者讲解·2
  • 图表
  • 解决问题
    该论文试图探讨并验证一个假设:即大规模语言模型的过度预训练是否会降低其在下游任务中的性能。这是一个相对较新的问题,挑战了当前普遍接受的观点,即更多的预训练数据总是会带来更好的结果。
  • 关键思路
    论文的关键思路是提出‘灾难性过训练’(catastrophic overtraining)的概念,表明随着预训练规模的增加,模型参数对微调等修改变得更加敏感,从而可能导致下游任务性能下降。这一观点与目前追求更大预训练规模的趋势形成对比,强调了需要重新评估预训练的设计,以优化模型的下游适应能力。
  • 其它亮点
    论文通过控制实验和理论分析展示了灾难性过训练的现象,并提供了具体的例子(如OLMo-1B模型)。研究使用了标准LLM基准进行测试,并发现预训练规模过大时会导致2%以上的性能下降。此外,论文呼吁关注模型的下游适应性,而不仅仅是预训练性能。虽然未提及代码开源,但其研究方法值得进一步探索,尤其是在如何平衡预训练规模与下游任务表现方面。
  • 相关研究
    相关研究包括《Pre-train, Then Fine-tune? A Critical Reevaluation》和《On the Importance of Pre-training for Language Models》等,这些工作同样质疑了大规模预训练的有效性或必要性。另外,《The Lottery Ticket Hypothesis: Finding Sparse Winning Tickets》提出了稀疏子网络的概念,可能为解决灾难性过训练提供新思路。还有《Rethinking Pre-training and Fine-tuning in Vision Transformers》从视觉领域角度讨论了类似问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问