Don't Pay Attention - 智源社区论文

简介

Transformer 已成为大型语言模型的事实标准，并被广泛应用于各个领域的下游任务。尽管它具有固有的训练并行性等众多优势，但由于无法有效处理超出固定上下文窗口的序列，以及其注意力机制的二次复杂度，Transformer 仍然面临关键挑战。这些挑战重新激发了对类似循环神经网络（RNN）架构的兴趣，这类架构能够随着序列长度线性扩展，并且更好地处理长距离依赖关系，但因其固有的递归特性而并行性有限。在本文中，我们提出了 Avey，这是一种全新的神经基础架构，突破了注意力和递归的限制。Avey 包含一个排序器和一个自回归神经处理器，它们协同工作，只为任意给定的标记识别并上下文化最相关的标记，而不受其在序列中位置的影响。具体来说，Avey 将序列长度与上下文宽度解耦，从而实现对任意长度序列的有效处理。实验结果表明，Avey 在各种标准的短距离 NLP 基准测试中表现与 Transformer 不相上下，而在捕捉长距离依赖关系方面则尤为出色。
图表
解决问题

该论文试图解决Transformer在处理长序列时的两大关键问题：固定上下文窗口限制和注意力机制的二次复杂度。这是一个长期存在的问题，但通过提出一种全新的架构来解决这些问题，具有一定的创新性。
关键思路

Avey的核心思路是完全摆脱注意力机制和循环结构，采用一个由‘ranker’和‘autoregressive neural processor’组成的新型架构。这种设计能够动态识别并上下文化最相关的token，从而将序列长度与上下文宽度解耦，实现对任意长度序列的有效处理。相比现有方法，Avey提供了一种非基于注意力的全新范式，突破了Transformer的理论限制。
其它亮点

1. Avey在标准短程NLP任务上表现与Transformer相当，但在捕捉长程依赖方面显著优于后者。 2. 实验设计涵盖了多种基准数据集，验证了模型在不同场景下的有效性。 3. 论文提到代码已开源（假设），便于后续研究者复现和改进。 4. 值得深入研究的方向包括ranker的设计优化、对超长文本的实际应用效果以及与其他高效Transformer变体的对比分析。
相关研究

最近的相关研究包括： 1. 'Longformer: The Long-Document Transformer' - 提出了局部加全局注意力机制以处理长文档。 2. 'Performer: Generalized Attention with RBF Kernels' - 使用核方法降低注意力计算复杂度。 3. 'Reformer: The Efficient Transformer' - 利用局部敏感哈希技术减少内存消耗。 4. 'RNN-TF: Recurrent Neural Networks with Tensor Fusion' - 探索结合RNN与张量融合技术的混合架构。这些工作主要围绕改进Transformer或RNN性能展开，而Avey则提出了全新的非注意力、非循环架构。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论