- 简介本文解决了为极长序列创建神经架构的挑战,该架构需要在每个时间步骤上处理新信息的恒定时间。我们的方法是基于transformer自注意力和段级循环的联想循环记忆变换器(ARMT),用于存储分布在长上下文中的特定任务信息。我们证明ARMT在联想检索任务中优于现有的替代方案,并在最近的BABILong多任务长上下文基准测试中设置了新的性能记录,通过对5000万个标记进行单事实问题回答,准确率达到79.9%。训练和评估的源代码可在github上获得。
-
- 图表
- 解决问题ARMT试图解决处理长序列时需要恒定时间的问题。
- 关键思路ARMT基于transformer self-attention和segment-level recurrence,用于处理长序列。
- 其它亮点ARMT在关联检索任务中表现优异,并在BABILong多任务长上下文基准测试中创下了79.9%的准确率记录。
- 与ARMT相关的研究包括transformer self-attention和RNN等模型的组合,以及其他处理长序列的模型,如Longformer、Reformer等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流