- 简介最近,大型语言模型(LLMs)在各种任务中被广泛采用,引起了人们对研究如何扩展LLMs影响其性能的越来越多的关注。现有的研究称为缩放定律,发现LLMs的损失随着模型大小、计算预算和数据集大小呈幂律缩放。然而,LLMs在训练过程中的表现仍未被触及。在本文中,我们提出了时间缩放定律的新概念,并从时间维度研究LLMs的损失。我们首先调查了每个令牌位置的损失不平衡,并在模型规模和训练阶段之间开发了一种相互作用定律。然后,通过研究相互作用定律参数的时间模式,我们推导出时间缩放定律。在分布内(IID)数据和分布外(OOD)数据上的结果表明,我们的时间缩放定律准确预测了LLMs在未来训练阶段的表现。此外,时间缩放定律揭示了LLMs在不同令牌位置上学习均匀,尽管存在损失不平衡。在各种规模的预训练LLMs上的实验表明,这种现象验证了生成语言模型的默认训练范式,在训练过程中没有附加重新加权策略。总体而言,时间缩放定律提供了对LLM预训练的更深层次的洞察。
- 图表
- 解决问题本论文旨在提出一种新的概念——时间缩放定律,并从时间维度研究LLMs的损失。研究LLMs的性能如何随着训练过程而变化,以及LLMs在不同时间点上对每个令牌位置的损失是否均衡。
- 关键思路本论文提出了一种新的概念——时间缩放定律,通过研究LLMs在不同时间点上对每个令牌位置的损失,预测LLMs在未来训练阶段的性能。论文发现LLMs在不同的令牌位置上学习是均衡的,这验证了生成语言模型的默认训练范式。
- 其它亮点论文设计了实验来验证时间缩放定律,使用了IID和OOD数据集。实验结果表明,时间缩放定律可以准确地预测LLMs在未来训练阶段的性能。此外,论文还发现LLMs在不同的令牌位置上学习是均衡的,并且验证了生成语言模型的默认训练范式。
- 在这个领域中,最近的相关研究包括:《Scaling Laws for Neural Language Models》、《Understanding the Difficulty of Training Transformers》等。
沙发等你来抢
去评论
评论
沙发等你来抢