HMT: Hierarchical Memory Transformer for Long Context Language Processing

简介

Transformer-based大型语言模型（LLM）已广泛应用于语言处理应用中。然而，它们中的大多数都限制了上下文窗口，使模型只能关注输入中的每个标记。先前在递归模型中的工作可以记忆过去的标记以实现无限上下文并保持有效性。但是，它们具有“扁平”的记忆架构，存在选择和过滤信息的限制。由于人类擅长学习和自我调整，我们推测模仿大脑记忆层次结构有利于模型记忆。我们提出了Hierarchical Memory Transformer（HMT），这是一个新的框架，通过模仿人类记忆行为，实现并改进模型的长上下文处理能力。通过利用记忆增强的分段级递归，我们通过保留早期输入标记段中的标记，沿着序列传递记忆嵌入，并从历史中回忆相关信息来组织记忆层次结构。通过评估通用语言建模（Wikitext-103，PG-19）和问答任务（PubMedQA），我们证明HMT稳定地提高了受限上下文和长上下文模型的长上下文处理能力。通过增加0.5％-2％的参数，HMT可以轻松地插入和增强未来的LLM，以有效处理长上下文。我们的代码在Github上开源：https://github.com/OswaldHe/HMT-pytorch。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提高语言模型处理长文本的能力，通过模拟人类记忆层次结构，提出了一种新的框架——Hierarchical Memory Transformer。
关键思路

通过引入记忆增强的分段级别循环，将记忆层次结构组织起来，从而使模型能够有效地处理长文本。相比于当前领域的研究，该论文的创新之处在于模拟了人类记忆行为，提出了一种新的记忆层次结构。
其它亮点

论文在Wikitext-103、PG-19和PubMedQA等数据集上进行了实验，证明了Hierarchical Memory Transformer可以有效地提高语言模型的长文本处理能力。同时，论文提供了开源代码，方便其他研究者进行进一步研究。
相关研究

最近在这个领域中，还有一些相关的研究，如Longformer、Big Bird等。

HMT: Hierarchical Memory Transformer for Long Context Language Processing

提问交流

提问交流