在一篇论文中,来自 DeepMind 等机构的研究者提出了一种名为 ∞-former 的模型,它是一种具备无限长期记忆(LTM)的 Transformer 模型,可以处理任意长度的上下文。

论文链接:https://arxiv.org/pdf/2109.00301.pdf

通过利用连续空间注意力机制来处理长期记忆,∞-former 的注意力复杂度可以独立于上下文长度。因此,它能够借助一个固定的算力开销建模任意长度的上下文并保持「粘性记忆(sticky memories)」。

在一个综合排序任务上进行的实验证明了∞-former 能够保留来自长序列的信息。此外,研究者还进行了语言建模的实验,包括从头开始训练一个模型以及对一个预训练的语言模型进行微调,这些实验显示了无限长期记忆的优势。

内容中包含的图片若涉及版权问题,请及时与我们联系删除