Associative Recurrent Memory Transformer

2024年07月05日
  • 简介
    本文解决了为极长序列创建神经架构的挑战,该架构需要在每个时间步骤上处理新信息的恒定时间。我们的方法是基于transformer自注意力和段级循环的联想循环记忆变换器(ARMT),用于存储分布在长上下文中的特定任务信息。我们证明ARMT在联想检索任务中优于现有的替代方案,并在最近的BABILong多任务长上下文基准测试中设置了新的性能记录,通过对5000万个标记进行单事实问题回答,准确率达到79.9%。训练和评估的源代码可在github上获得。
  • 作者讲解
  • 图表
  • 解决问题
    ARMT试图解决处理长序列时需要恒定时间的问题。
  • 关键思路
    ARMT基于transformer self-attention和segment-level recurrence,用于处理长序列。
  • 其它亮点
    ARMT在关联检索任务中表现优异,并在BABILong多任务长上下文基准测试中创下了79.9%的准确率记录。
  • 相关研究
    与ARMT相关的研究包括transformer self-attention和RNN等模型的组合,以及其他处理长序列的模型,如Longformer、Reformer等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问