Base of RoPE Bounds Context Length

2024年05月23日
  • 简介
    位置嵌入是当前大型语言模型(LLM)的核心组件。旋转位置嵌入(RoPE)是一种通过旋转矩阵对位置信息进行编码的技术,已成为许多LLM(如Llama系列)中位置嵌入的默认选择。RoPE已被进一步利用以扩展长上下文能力,这大致基于调整RoPE的“基本”参数,以减轻位置嵌入中的分布外(OOD)问题。然而,在本文中,我们发现LLM可能基于OOD理论获得表面的长上下文能力。我们重新审视了RoPE在LLM中的作用,并提出了一种新的长期衰减属性,我们推导出RoPE的“基数限制上下文长度”的结论:对于获得某种上下文长度能力,基本值存在绝对下限。我们的工作从理论和实证上揭示了上下文长度和RoPE基数之间的关系,这可能为未来的长上下文训练提供启示。
  • 图表
  • 解决问题
    本文试图重新审视RoPE在LLMs中的作用,发现LLMs可能会因为OOD理论而获得表面上的长上下文能力。作者提出了长期衰减的新属性,并得出RoPE基值与上下文长度之间的关系,从而揭示了它们之间的理论和实证关系。
  • 关键思路
    本文提出了RoPE基值与上下文长度之间的关系,并发现RoPE在LLMs中的作用被过高估计。
  • 其它亮点
    本文揭示了RoPE在LLMs中的实际作用,提出了长期衰减的新属性,并提供了理论和实证证据。本文还探讨了RoPE的局限性和改进方向。
  • 相关研究
    最近的相关研究包括:1. LLMs中的位置编码方法的改进;2. RoPE在LLMs中的应用和局限性;3. 长上下文的训练和应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论