- 简介基于Transformer的大型语言模型(LLM)已广泛用于语言处理应用。然而,大多数模型限制了上下文窗口,使得模型无法关注输入中的每个令牌。过去的循环模型可以记忆过去的令牌,从而实现无限上下文并保持有效性。然而,它们具有“平坦”的内存架构,存在选择和过滤信息的限制。由于人类擅长学习和自我调整,我们推测模仿大脑记忆层次结构对于模型记忆有益。我们提出了分层记忆Transformer(HMT),这是一种新的框架,通过模仿人类记忆行为,使模型实现和改进长上下文处理能力。通过利用记忆增强的分段级别循环,我们通过保留早期输入令牌段中的令牌,沿着序列传递记忆嵌入,并从历史中召回相关信息来组织记忆层次结构。通过评估通用语言建模(Wikitext-103,PG-19)和问答任务(PubMedQA),我们展示了HMT稳定地提高了受上下文限制和长上下文模型的长上下文处理能力。使用额外的0.5%-2%的参数,HMT可以轻松地插入和增强未来的LLM以有效处理长上下文。我们的代码在Github上开源:https://github.com/OswaldHe/HMT-pytorch。
- 图表
- 解决问题论文旨在解决长文本处理中的上下文限制问题,提出了一种模仿人类记忆层次结构的新型框架。
- 关键思路论文提出了一种层次记忆Transformer(HMT)框架,通过记忆增强的分段级别循环,组织记忆层次结构,从早期输入令牌段中保留令牌,沿着序列传递记忆嵌入,并从历史中召回相关信息,以提高模型的长上下文处理能力。
- 其它亮点论文使用Wikitext-103、PG-19和PubMedQA数据集进行了实验,并展示了HMT在长上下文模型中稳定提高了长上下文处理能力。论文提供了开源代码。
- 近期的相关研究包括《Longformer: The Long-Document Transformer》、《Reformer: The Efficient Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢