HMT: Hierarchical Memory Transformer for Long Context Language Processing

简介

基于Transformer的大型语言模型（LLM）已广泛用于语言处理应用。然而，大多数模型限制了上下文窗口，使得模型无法关注输入中的每个令牌。过去的循环模型可以记忆过去的令牌，从而实现无限上下文并保持有效性。然而，它们具有“平坦”的内存架构，存在选择和过滤信息的限制。由于人类擅长学习和自我调整，我们推测模仿大脑记忆层次结构对于模型记忆有益。我们提出了分层记忆Transformer（HMT），这是一种新的框架，通过模仿人类记忆行为，使模型实现和改进长上下文处理能力。通过利用记忆增强的分段级别循环，我们通过保留早期输入令牌段中的令牌，沿着序列传递记忆嵌入，并从历史中召回相关信息来组织记忆层次结构。通过评估通用语言建模（Wikitext-103，PG-19）和问答任务（PubMedQA），我们展示了HMT稳定地提高了受上下文限制和长上下文模型的长上下文处理能力。使用额外的0.5％-2％的参数，HMT可以轻松地插入和增强未来的LLM以有效处理长上下文。我们的代码在Github上开源：https://github.com/OswaldHe/HMT-pytorch。
图表
解决问题

论文旨在解决长文本处理中的上下文限制问题，提出了一种模仿人类记忆层次结构的新型框架。
关键思路

论文提出了一种层次记忆Transformer（HMT）框架，通过记忆增强的分段级别循环，组织记忆层次结构，从早期输入令牌段中保留令牌，沿着序列传递记忆嵌入，并从历史中召回相关信息，以提高模型的长上下文处理能力。
其它亮点

论文使用Wikitext-103、PG-19和PubMedQA数据集进行了实验，并展示了HMT在长上下文模型中稳定提高了长上下文处理能力。论文提供了开源代码。
相关研究

近期的相关研究包括《Longformer: The Long-Document Transformer》、《Reformer: The Efficient Transformer》等。

HMT: Hierarchical Memory Transformer for Long Context Language Processing

评论