Don't be lazy: CompleteP enables compute-efficient deep transformers

简介

我们研究了在使用不同参数化方法时，大语言模型（LLM）训练的计算效率。这些参数化方法是指在模型规模变化时调整模型和优化器超参数（HPs）的规则。某些参数化方法无法在模型深度发生变化时迁移最优的基础超参数（例如学习率），这迫使从业者要么随着模型扩展重新调整这些超参数（代价高昂），要么在重新调整不可行时接受次优的训练效果。即使这些方法能够实现超参数的迁移，我们通过理论分析表明，某些参数化可能仍然处于“懒惰学习”区域，在这一区域中，各层仅学习接近其线性化的特征，从而无法有效利用模型深度和非线性。最后，我们识别并采用了我们称之为“CompleteP”的独特参数化方法，该方法能够在所有层中同时实现深度方向上的超参数迁移和非懒惰学习。CompleteP 使更广泛的模型宽度/深度比例仍能保持计算高效，从而解锁更适合不同硬件环境和操作场景的模型形状。此外，与之前的最先进方法相比，CompleteP 能够提升 12%-34% 的计算效率。
图表
解决问题

论文试图解决大型语言模型（LLM）训练过程中，不同模型规模下超参数（如学习率）无法有效迁移的问题。此外，还探讨了某些参数化方法可能导致模型进入懒惰学习（lazy learning）状态，从而无法充分利用深度和非线性的问题。
关键思路

论文提出了一种名为CompleteP的独特参数化方法，该方法能够在模型深度变化时实现超参数的有效迁移，并避免进入懒惰学习状态。相比现有方法，CompleteP不仅提升了计算效率（12-34%），还支持更灵活的模型宽度/深度比例，使其更适合不同的硬件环境和应用场景。
其它亮点

论文通过理论分析和实验验证展示了CompleteP的优势。实验设计包括对不同模型规模和架构的测试，数据集涵盖了常见的NLP任务。此外，论文开源了部分代码，便于后续研究者复现结果。未来值得深入研究的方向包括：CompleteP在其他模态（如CV）中的应用、进一步优化其在极端规模下的表现等。
相关研究

近期相关研究包括《Scaling Laws for Neural Language Models》（探讨模型规模与性能的关系）、《Understanding the Impact of Parameterization on Training Dynamics》（分析参数化对训练动态的影响）以及《Optimal Hyperparameter Transfer Across Model Sizes》（研究跨模型规模的超参数迁移）。这些研究共同构成了当前关于模型规模、参数化和训练效率的研究背景。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论