Patch-Level Training for Large Language Models

2024年07月17日
  • 简介
    随着大型语言模型(LLMs)在语言理解和生成方面取得了显著进展,它们的训练效率已成为一个关键问题。传统上,LLMs是通过训练来预测序列中的下一个标记。尽管标记级别训练取得了成功,但由于需要处理大量标记,它面临着相当大的计算成本。为了缓解这个问题,本文介绍了一种针对LLMs的补丁级别训练方法,通过将多个标记压缩成单个补丁来减少序列长度。在补丁级别训练期间,我们将较短的补丁序列馈送给语言模型,并训练它来预测下一个补丁,从而以显著降低的计算成本处理大部分训练数据。之后,模型继续在剩余的训练数据上进行标记级别训练,以与推理模式相一致。在各种模型(370M-2.7B参数)上的实验表明,与标记级别训练相比,补丁级别训练可以将总体计算成本降低到0.5倍,而不会影响模型性能。源代码:\url{https://github.com/shaochenze/PatchTrain}。
  • 图表
  • 解决问题
    本文试图通过引入patch-level training的方法来解决LLMs训练效率的问题,即通过将多个token压缩成一个patch来减少序列长度,从而降低计算成本。
  • 关键思路
    本文的关键思路是使用patch-level training来训练LLMs,即通过预测下一个patch来训练模型,从而在显著降低计算成本的同时保持模型性能。
  • 其它亮点
    本文的实验结果表明,相比于传统的token-level training,使用patch-level training可以将总的计算成本降低到0.5倍,而模型性能不会受到影响。此外,本文还提供了开源代码和多个数据集,值得进一步研究。
  • 相关研究
    在相关研究方面,最近的一些研究包括《Efficient Transformers: A Survey》、《Reformer: The Efficient Transformer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论