Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

简介

这项工作介绍了一种有效的方法，可以使用有限的内存和计算能力将基于Transformer的大型语言模型（LLM）扩展到无限长的输入。我们提出的方法的关键组成部分是一种新的注意力技术，称为Infini-attention。Infini-attention将可压缩内存结合到基本的注意力机制中，并在单个Transformer块中构建了掩码本地注意力和长期线性注意力机制。我们在长上下文语言建模基准测试、1M序列长度的密码上下文块检索和500K长度的书籍摘要任务中，使用1B和8B的LLM展示了我们方法的有效性。我们的方法引入了最小的有限内存参数，并为LLM提供了快速的流式推理能力。
图表
解决问题

本文试图解决大型语言模型在处理无限长输入时的内存和计算限制问题。
关键思路

本文提出了一种名为Infini-attention的新型注意力机制，将压缩内存和局部掩码注意力机制与长期线性注意力机制相结合，可以实现无限长输入的处理。
其它亮点

本文在长文本语言建模、1M序列长度的密码上下文块检索和500K长度的书籍摘要任务中，使用1B和8B的大型语言模型验证了提出的方法的有效性。该方法具有较小的内存参数和快速的流式推理能力。
相关研究

最近的相关研究包括：《Scaling Neural Machine Translation》、《Reformer: The Efficient Transformer》等。