EvoLM: In Search of Lost Language Model Training Dynamics

2025年06月19日
  • 简介
    现代语言模型(LM)的训练被分为多个阶段,这使得下游开发者很难评估每个阶段设计选择的影响。我们提出了EvoLM,一个模型套件,能够系统且透明地分析语言模型在预训练、持续预训练、监督微调和强化学习阶段的训练动态。通过从头开始训练超过100个参数规模为10亿和40亿的语言模型,我们严格评估了其上游(语言建模)和下游(问题解决)推理能力,包括领域内和领域外泛化的考量。关键发现包括:过度预训练和后训练的边际收益递减、在领域特定持续预训练中缓解遗忘的重要性及实践方法、持续预训练在连接预训练与后训练阶段中的关键作用,以及在配置监督微调和强化学习时涉及的各种复杂权衡。为了促进开放研究和可复现性,我们开源了所有预训练和后训练模型、各阶段的训练数据集,以及我们的完整训练和评估流程。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决现代语言模型训练过程中各阶段设计选择对最终性能影响难以评估的问题。这是一个较为新颖的问题,因为它关注的是语言模型生命周期中不同阶段的训练动态及其系统性分析。
  • 关键思路
    论文提出EvoLM模型套件,通过从头开始训练超过100个参数规模为1B和4B的语言模型,系统地研究了预训练、持续预训练、监督微调和强化学习等阶段的训练动态。相比现有研究,该论文提供了一个透明且可复现的框架来量化各阶段的影响,并揭示了如过度预训练或后训练的边际收益递减等关键发现。
  • 其它亮点
    论文设计了全面的实验,评估了语言建模和问题解决能力,包括领域内和领域外的泛化能力。此外,作者公开了所有预训练和后训练模型、数据集及完整训练与评估管道,极大促进了开放研究和可复现性。未来可以进一步探索如何优化持续预训练以减少遗忘现象,以及更高效地配置监督微调和强化学习。
  • 相关研究
    近期相关研究包括《Understanding the Role of Pretraining in Language Models》和《Efficient Fine-Tuning Strategies for Large Language Models》。此外,《Mitigating Catastrophic Forgetting in Continual Learning》探讨了类似主题中的遗忘问题,而《Scaling Laws for Neural Language Models》则研究了模型规模与性能之间的关系。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问