谷歌、剑桥、DeepMind 以及 Alan Turing 研究所的研究团队基于通过正正交随机特征(FAVOR +)主干机制的快速注意力,提出了一种新型 Transformer,称为 Performer。该团队将 Performer 设计为「能够对常规(softmax)全职员工的注意力进行可证明的准确和实用的估计,但仅线性空间和及时复杂性,并且不依赖于稀疏性或低职等先验条件。」

内容中包含的图片若涉及版权问题,请及时与我们联系删除