Bucket Pre-training is All You Need

2024年07月10日
  • 简介
    大型语言模型(LLMs)在各种自然语言处理任务中表现出了出色的性能。然而,传统的固定长度数据组合策略,即将文档连接和拆分,可能会引入噪声并限制模型捕捉长程依赖的能力。为了解决这个问题,我们首先引入了三个评估数据组合质量的指标:填充比率、截断比率和连接比率。我们进一步提出了一种多桶数据组合方法,超越了固定长度范式,提供了一种更灵活和高效的预训练方法。广泛的实验表明,我们提出的方法可以显著提高LLMs预训练的效率和功效。我们的方法不仅减少了噪声并保留了上下文,而且加速了训练,使其成为LLMs预训练的一种有前途的解决方案。
  • 图表
  • 解决问题
    论文旨在解决传统的固定长度文本拼接方法在预训练中可能引入噪声和限制模型捕捉长程依赖的问题。
  • 关键思路
    论文提出了一种基于多桶数据组合的预训练方法,可以更灵活高效地处理文本数据,提高大型语言模型的预训练效率和准确性。
  • 其它亮点
    论文提出了三个评估数据组合质量的度量标准,并在多个实验中验证了新方法的有效性和优越性。论文还开源了代码和数据集,为后续研究提供了便利。
  • 相关研究
    与该论文相关的研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论