- 简介随着模型规模的不断增大,新的训练策略,如逐步堆叠 [Gong et al., 2019, Reddi et al., 2023],已经引起了人们的关注。堆叠通过逐步增加模型的深度,并使用较小模型中的层来初始化下一阶段,从而实现高效训练。虽然这种增长方法在训练方面效率高,但由此引起的模型偏差还没有得到充分探究。在这项工作中,我们研究了逐步堆叠的这个基本方面,超越了它的效率好处。我们提出了一种名为MIDAS的逐步堆叠变体,可以将语言模型训练加速高达40%。此外,我们还发现了一个有趣的现象:尽管与基线训练相比,MIDAS的困惑度相似或略差,但它不仅训练高效,而且令人惊讶地具有一种归纳偏差,可以改善下游任务,特别是需要推理能力的任务,如阅读理解和数学问题。为了进一步分析这种归纳偏差,我们构建了推理基元——简单的合成任务,是推理的构建块——发现使用堆叠预训练的模型在这些基元上明显优于标准预训练,无论是否进行微调。这为这种推理偏差提供了更强更稳健的证据。这些训练效率和归纳偏差朝向推理的发现在10亿、20亿和80亿参数的语言模型中得到了验证。最后,我们推测堆叠的归纳偏差的根本原因,探索了堆叠与循环模型的联系,并提供了强有力的实证分析。
-
- 图表
- 解决问题论文试图通过提出一种名为MIDAS的渐进式堆叠预训练模型的方法,来提高语言模型训练效率和推理能力。此外,论文还试图探索渐进式堆叠预训练模型的归纳偏差。
- 关键思路论文提出了一种名为MIDAS的渐进式堆叠预训练模型的方法,通过逐步增加模型深度并使用较小模型的层来初始化下一个阶段,提高语言模型训练效率和推理能力。
- 其它亮点论文发现,MIDAS方法不仅能够提高语言模型训练效率,而且具有推理能力的归纳偏差,尤其是对于需要推理能力的任务,如阅读理解和数学问题。此外,论文还构建了推理原语,并发现使用渐进式堆叠预训练模型的预训练结果在这些原语上显著优于标准预训练结果。
- 与该论文相关的研究包括渐进式堆叠方法的先前研究,如Gong等人和Reddi等人的工作,以及最近关于语言模型训练效率和推理能力的研究,如T5-XL,GShard和GPT-3等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流