- 简介快速扩散的大型语言模型(LLMs),如GPT-4和Gemini,凸显了它们的训练过程中对资源的强烈需求,由于计算和环境成本的显著增加,这带来了重大挑战。为了缓解这个问题,我们提出了预训练LLM中的检查点合并。该方法利用具有共享训练轨迹的LLM检查点,并根据贝叶斯优化中的广泛搜索空间探索来确定最佳合并权重。通过各种实验,我们证明:(1)我们提出的方法展示了增强预训练的能力,类似于以最小的成本获得实质性收益的机会;(2)尽管需要给定一个保留数据集,我们提出的方法仍然表现出对不同领域的强大泛化能力,这是预训练中的关键方面。
-
- 图表
- 解决问题论文旨在解决大型语言模型(LLMs)训练过程中的计算和环境成本问题,提出了一种checkpoint merging的预训练方法
- 关键思路该方法利用具有共享训练轨迹的LLM检查点,并通过贝叶斯优化在广泛的搜索空间中寻找最佳合并权重。
- 其它亮点实验表明,该方法能够增强预训练,并在不同领域展现出强大的泛化能力。
- 最近的相关研究包括Megatron、GShard等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流