【题目】Random Feature Attention 【作者】Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong 【时间】3 Mar 2021, ICLR 2021 【推荐理由】本文提出了RFA,一种线性时间和空间复杂度的注意力机制。使用随机特征方法来近似softmax函数,并探讨了它在Transformer中的应用。

Transformer是用于各种序列建模任务的最先进模型。核心是注意力机制,在每个时间步对输入之间的相互作用进行建模。注意力机制在序列长度上的二次时间和空间复杂性,不能有效地扩展到长序列。RFA可以作为常规softmax注意力的替代,并通过可选的门控机制提供了一种直接的学习近因偏差的方式。在语言建模和机器翻译方面的实验表明,相对于基线,RFA具有相似或更好的性能。在机器翻译实验中,RFA的解码速度是普通模型的两倍。相对于现有的高效Transformer,RFA在三个长文本分类数据集上的准确性和效率都具有竞争力。

内容中包含的图片若涉及版权问题,请及时与我们联系删除