- 简介当输入令牌数量超过预训练长度时,大型语言模型(LLMs)处理和生成连贯文本的能力明显减弱。鉴于使用更长序列进行微调的大规模模型的昂贵开销,我们提出了双重块注意力(DCA),使Llama2 70B能够支持超过100k个令牌的上下文窗口而无需持续训练。通过将长序列的注意力计算分解为基于块的模块,DCA成功地捕捉到同一块内(块内)和不同块之间(块间)的令牌的相对位置信息,并与Flash Attention无缝集成。除了其令人印象深刻的外推能力外,DCA在实际的长上下文任务上实现的性能与微调模型相当甚至更好。与专有模型相比,我们的无需训练的70B模型达到了gpt-3.5-16k性能的94%,表明它是一个可行的开源替代品。本研究使用的所有代码和数据均在\url{https://github.com/HKUNLP/ChunkLlama}上发布。
- 图表
- 解决问题论文试图解决的问题是如何在不需要持续训练的情况下,使Llama2 70B支持超过100k个令牌的上下文窗口,并保持其文本生成和处理的连贯性。
- 关键思路论文提出了Dual Chunk Attention(DCA)的解决方案,通过将长序列的注意力计算分解为基于块的模块,DCA能够有效地捕获相对位置信息,并与Flash Attention无缝集成。
- 其它亮点论文提出的DCA方法具有很强的推广能力,并且在实际的长上下文任务中,其表现与调整后的模型相当甚至更好。与专有模型相比,这个开源模型达到了gpt-3.5-16k性能的94%。论文还提供了代码和数据集。
- 最近的相关研究包括使用分层注意力机制的BERT、使用多头注意力机制的Transformer-XL和使用自回归模型的GPT-3等。
沙发等你来抢
去评论
评论
沙发等你来抢