Overtrained Language Models Are Harder to Fine-Tune

向作者提问

NEW

简介

大规模语言模型在不断增长的标记预算上进行预训练，假设更好的预训练性能可以转化为更优的下游模型表现。然而，在本研究中，我们挑战了这一假设，并证明过度的预训练可能会使模型更难微调，从而导致最终性能下降。我们将这种现象称为灾难性过训。例如，基于3万亿标记预训练的指令调优OLMo-1B模型，在多个标准LLM基准测试上的表现比其基于2.3万亿标记预训练的版本差超过2%。通过受控实验和理论分析，我们发现灾难性过训源于预训练参数对修改（包括但不限于微调）的广泛敏感性系统性增加。我们的研究结果呼吁重新审视预训练设计，以考虑模型在下游任务中的适应能力。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

该论文试图探讨并验证一个假设：即大规模语言模型的过度预训练是否会降低其在下游任务中的性能。这是一个相对较新的问题，挑战了当前普遍接受的观点，即更多的预训练数据总是会带来更好的结果。
关键思路

论文的关键思路是提出‘灾难性过训练’（catastrophic overtraining）的概念，表明随着预训练规模的增加，模型参数对微调等修改变得更加敏感，从而可能导致下游任务性能下降。这一观点与目前追求更大预训练规模的趋势形成对比，强调了需要重新评估预训练的设计，以优化模型的下游适应能力。
其它亮点

论文通过控制实验和理论分析展示了灾难性过训练的现象，并提供了具体的例子（如OLMo-1B模型）。研究使用了标准LLM基准进行测试，并发现预训练规模过大时会导致2%以上的性能下降。此外，论文呼吁关注模型的下游适应性，而不仅仅是预训练性能。虽然未提及代码开源，但其研究方法值得进一步探索，尤其是在如何平衡预训练规模与下游任务表现方面。
相关研究

相关研究包括《Pre-train, Then Fine-tune? A Critical Reevaluation》和《On the Importance of Pre-training for Language Models》等，这些工作同样质疑了大规模预训练的有效性或必要性。另外，《The Lottery Ticket Hypothesis: Finding Sparse Winning Tickets》提出了稀疏子网络的概念，可能为解决灾难性过训练提供新思路。还有《Rethinking Pre-training and Fine-tuning in Vision Transformers》从视觉领域角度讨论了类似问题。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问