- 简介本研究揭示了大语言模型(LLMs)在没有微调的情况下处理长文本的固有能力。训练期间训练序列的长度限制了LLMs在推理长输入序列方面的应用。在本研究中,我们认为现有的LLMs本身具有处理长上下文的固有能力。基于这个观点,我们建议通过扩展LLMs的上下文窗口来充分利用其固有能力。我们提出了Self-Extend来刺激LLMs的长上下文处理潜力。基本思想是构建双层注意力信息:分组级别和邻居级别。这两个级别都是通过原始模型的自我注意力计算的,这意味着所提出的方法不需要任何训练。只需进行四行代码修改,所提出的方法就可以轻松地扩展现有LLMs的上下文窗口,而无需进行任何微调。我们进行了全面的实验,结果表明,所提出的方法可以有效地扩展现有LLMs上下文窗口的长度。
- 图表
- 解决问题本论文试图通过自我扩展技术解决大语言模型(LLMs)在推理时受限于训练序列长度的问题。它提出了自我扩展技术,旨在充分利用现有LLMs本身处理长上下文的能力。
- 关键思路本论文提出的自我扩展技术可以通过原始模型的自注意力计算两个级别的注意力信息:组级别和邻居级别,从而扩展LLMs的上下文窗口,而不需要任何微调。
- 其它亮点本论文的亮点包括:提出了一种新的自我扩展技术来解决LLMs在推理时受限于训练序列长度的问题;只需要对代码进行四行修改就可以轻松扩展现有LLMs的上下文窗口;实验结果表明,该方法可以有效地扩展现有LLMs的上下文窗口长度。
- 近期的相关研究包括:1)《Longformer: The Long-Document Transformer》;2)《Reformer: The Efficient Transformer》;3)《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢