Performer：用随机投影将Attention的复杂度线性化

论文标题： Rethinking Attention with Performers 论文链接： https://arxiv.org/abs/2009.14794

Attention 机制的复杂度是一个老大难问题了，改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如我们以往介绍过的 Sparse Attention 以及 Google 前几个月搞出来的 Big Bird [1] ，等等；二是走线性化的思路，这部分工作我们之前总结在线性 Attention 的探索：Attention 必须有个 Softmax 吗？中，读者可以翻看一下。

本文则介绍一项新的改进工作 Performer，出自 Google 的文章 Rethinking Attention with Performers，它的目标相当霸气：通过随机投影，在不损失精度的情况下，将 Attention 的复杂度线性化。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Performer：用随机投影将Attention的复杂度线性化

评论