Extending Context Window of Large Language Models via Positional Interpolation

Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian
[Meta Platforms Inc]

通过位置插值扩展大语言模型上下文窗口

  • 动机:大型语言模型(LLM)通常具有预定义的上下文窗口大小,例如,LLaMA模型的输入必须少于2048个令牌。然而,对于长对话、长文档摘要或长程规划等应用,需要更长的上下文窗口的LLM。然而,从头开始训练具有长上下文窗口的LLM需要大量的投入。这自然引出了一个问题:能否扩展现有预训练LLM的上下文窗口?
  • 方法:提出了位置插值(PI)方法,可以将RoPE-based预训练LLM(如LLaMA模型)的上下文窗口大小扩展到32768,同时只需要最少的微调(在1000步内),并在各种需要长上下文的任务上展示了强大的实证结果,包括密钥检索、语言建模和长文档摘要。
  • 优势:位置插值可以轻松启用非常长的上下文窗口(例如,32768),只需要在Pile上微调1000步就可以达到良好的质量。微调的成本与预训练成本相比可以忽略不计。这证实了本文的假设,即模型适应插值位置编码相对容易。

通过引入位置插值方法,成功地扩展了大型语言模型的上下文窗口,从而在各种需要长上下文的任务上取得了显著的实证结果。

https://arxiv.org/abs/2306.15595 
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除