Associative Recurrent Memory Transformer

简介

本文解决了为极长序列创建神经架构的挑战，该架构需要在每个时间步骤上处理新信息的恒定时间。我们的方法是基于transformer自注意力和段级循环的联想循环记忆变换器（ARMT），用于存储分布在长上下文中的特定任务信息。我们证明ARMT在联想检索任务中优于现有的替代方案，并在最近的BABILong多任务长上下文基准测试中设置了新的性能记录，通过对5000万个标记进行单事实问题回答，准确率达到79.9％。训练和评估的源代码可在github上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

ARMT试图解决处理长序列时需要恒定时间的问题。
关键思路

ARMT基于transformer self-attention和segment-level recurrence，用于处理长序列。
其它亮点

ARMT在关联检索任务中表现优异，并在BABILong多任务长上下文基准测试中创下了79.9%的准确率记录。
相关研究

与ARMT相关的研究包括transformer self-attention和RNN等模型的组合，以及其他处理长序列的模型，如Longformer、Reformer等。