LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

2024年02月21日
  • 简介
    大的上下文窗口是大型语言模型(LLMs)中的一个理想特征。然而,由于高昂的微调成本、长文本的稀缺性以及新令牌位置引入的灾难性值,当前扩展的上下文窗口仅限于大约128k个令牌。本文介绍了LongRoPE,它首次将预训练的LLMs的上下文窗口扩展到令人印象深刻的2048k个令牌,仅需要256k的训练长度内进行不超过1k次微调步骤,同时保持原始短上下文窗口的性能。这是通过三个关键创新实现的:(i)我们通过有效的搜索识别和利用了两种非均匀性的位置插值形式,为微调提供更好的初始化,并在非微调情况下实现了8倍的扩展;(ii)我们引入了一种渐进式扩展策略,首先微调一个256k长度的LLM,然后在微调的扩展LLM上进行第二次位置插值,以实现2048k的上下文窗口;(iii)我们对8k长度的LongRoPE进行调整,以恢复短上下文窗口的性能。在LLaMA2和Mistral上进行的大量实验表明了我们方法的有效性。通过LongRoPE扩展的模型保留了原始的架构,并对位置嵌入进行了轻微修改,并且可以重用大部分现有的优化。
  • 图表
  • 解决问题
    本论文旨在扩展预训练大语言模型(LLMs)的上下文窗口,以提高模型性能。当前扩展上下文窗口的方法存在高昂的微调成本、长文本的稀缺性以及新令牌位置引入的灾难性值等问题。
  • 关键思路
    本论文提出了一种名为LongRoPE的方法,通过三个关键创新点来将预训练LLMs的上下文窗口扩展到2048k令牌,同时保持原始短上下文窗口的性能。这三个创新点包括:(i)通过有效的搜索识别和利用两种形式的位置插值的非均匀性,提供更好的微调初始化,并在非微调场景下实现8倍扩展;(ii)引入渐进式扩展策略,首先微调256k长度的LLM,然后对微调后的扩展LLM进行第二次位置插值,以实现2048k上下文窗口;(iii)对8k长度的LongRoPE进行重新调整,以恢复短上下文窗口性能。
  • 其它亮点
    本论文的亮点包括:(i)实现了预训练LLMs上下文窗口的2048k令牌扩展;(ii)提出了三个关键创新点,包括位置插值的非均匀性、渐进式扩展策略和重新调整LongRoPE;(iii)在LLaMA2和Mistral等数据集上进行了广泛实验,证明了LongRoPE的有效性;(iv)LongRoPE保留了原始架构,并可重用大多数现有优化。
  • 相关研究
    在这个领域中,最近的相关研究包括XLNet、RoFormer等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论