Data Engineering for Scaling Language Models to 128K Context

2024年02月15日
  • 简介
    我们研究了使用持续预训练方法来扩展语言模型上下文长度至128K,并重点关注数据工程方面。我们假设长上下文建模,特别是“能够利用任意输入位置的信息”的能力,是在大规模预训练中已经获得的能力,并且可以通过在适当的数据混合上进行轻量级的持续预训练,轻松地扩展到远远超出训练范围的上下文长度(例如从4K到128K)。我们研究了持续预训练的“数量”和“质量”:(1)对于数量,我们证明了5亿到50亿个标记足以使模型能够检索到128K上下文中的任何信息;(2)对于质量,我们的结果同样强调“领域平衡”和“长度上采样”。具体而言,我们发现,在某些领域(如书籍)上简单地上采样更长的数据是现有方法的常见做法,但其表现不佳,因此平衡的领域混合非常重要。我们证明了在此类数据上对整个模型进行1B-5B标记的持续预训练是一种有效且经济的扩展语言模型上下文长度至128K的策略。我们的方法优于强大的开源长上下文模型,并缩小了与前沿模型(如GPT-4 128K)之间的差距。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图通过轻量级的持续预训练来扩展语言模型上下文长度至128K,以便更好地利用任意输入位置的信息。论文验证了这种方法的有效性,并探究了数据质量和数量对持续预训练的影响。
  • 关键思路
    论文通过持续预训练语言模型来扩展上下文长度,并探究了数据质量和数量对持续预训练的影响。论文的关键思路是在适当的数据混合上进行轻量级的持续预训练,以扩展语言模型的上下文长度。
  • 其它亮点
    论文发现,500万到50亿个令牌足以使模型能够在128K上下文中的任何位置检索信息。同时,论文还探究了数据质量的影响,发现在某些领域(如书籍)上简单地上采样长数据会导致性能下降,因此平衡的领域混合很重要。实验结果表明,持续预训练模型在1B-5B个这样的数据上是一种有效且经济的扩展语言模型上下文长度的策略。论文的方法优于强大的开源长上下文模型,并且接近GPT-4 128K的前沿模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Scaling Laws for Neural Language Models》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问