- 简介近期大型语言模型的发展在不同领域都取得了显著的成功。然而,由于注意力机制的二次时间和空间复杂度以及在生成过程中键值缓存的不断增长的内存消耗,处理长上下文仍然是大型语言模型面临的重大挑战。这项工作介绍了MemLong:一种记忆增强的检索长文本生成方法,旨在通过利用外部检索器进行历史信息检索来增强长上下文语言建模的能力。MemLong结合了一个非可微分的“ret-mem”模块和一个部分可训练的仅解码器语言模型,并引入了一种细粒度、可控的检索注意机制,利用语义级相关的块。在多个长上下文语言建模基准测试中进行的全面评估表明,MemLong始终优于其他最先进的大型语言模型。更重要的是,MemLong可以在单个3090 GPU上将上下文长度从4k扩展到80k。我们的代码可在https://github.com/Bui1dMySea/MemLong上找到。
-
- 图表
- 解决问题MemLong论文试图解决长文本生成中注意力机制的时间和空间复杂度问题,以及生成过程中key-value缓存的内存消耗问题。
- 关键思路MemLong通过使用外部检索器进行历史信息检索,将非可微分的“ret-mem”模块与部分可训练的仅解码的语言模型相结合,引入细粒度、可控的检索注意力机制,利用语义级相关块增强长上下文语言建模的能力。
- 其它亮点MemLong在多个长上下文语言建模基准测试上进行了全面的评估,表现出比其他最先进的LLMs更好的性能。此外,MemLong可以将单个3090 GPU上的上下文长度从4k扩展到80k。论文提供了开源代码,值得进一步研究。
- 最近的相关研究包括:1)GPT-3:Language Models are Few-Shot Learners;2)XLNet: Generalized Autoregressive Pretraining for Language Understanding;3)ERNIE: Enhanced Language Representation with Informative Entities。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流