众所周知,尽管基于 Attention 机制的 Transformer 类模型有着良好的并行性能,但它的空间和时间复杂度都是 O(n2)级别的,n 是序列长度,所以当 n 比较大时 Transformer 模型的计算量难以承受。

近来,也有不少工作致力于降低 Transformer 模型的计算量,比如模型剪枝、量化、蒸馏等精简技术,又或者修改 Attention 结构,使得其复杂度能降低到O(nlogn) 甚至O(n) 。

前几天笔者读到了论文 Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention ,了解到了线性化 Attention (Linear Attention)这个探索点,继而阅读了一些相关文献,有一些不错的收获,最后将自己对线性化 Attention 的理解汇总在此文中。

内容中包含的图片若涉及版权问题,请及时与我们联系删除