标题:UCS、CMU、脸书|Luna: Linear Unified Nested Attention(Luna:线性统一嵌套注意力)

简介:Transformer 注意力机制的二次计算和记忆复杂性限制了其对长序列建模的可扩展性。在这篇论文中,我们提出了 Luna,一种线性统一嵌套的注意力机制,用两个嵌套的线性注意力函数近似 softmax 注意力,产生只有线性(而不是二次)时间和空间复杂度。相比于一个更传统的注意力机制,Luna 引入了一个额外的序列以固定长度作为输入和额外的相应输出,这允许Luna 线性地执行注意力操作,同时还存储足够的上下文信息。我们对序列的三个基准进行了广泛的评估建模任务:长上下文序列建模、神经机器翻译和用于大规模预训练的掩码语言建模。

代码链接:https://github.com/XuezheMax/fairseq-apollo

论文下载:https://arxiv.org/pdf/2106.01540v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除