近期,Google 开源了 Performer,这是一种 Transformer 深度学习架构,可根据输入序列长度线性缩放,这使 Performer 可用于需要较长序列的任务,如,像素预测和蛋白质序列建模。
Google研究团队发表论文描述了该模型及其实验。通过使用通用的注意力机制——正正交随机特征(FAVOR +)准确估算 Transformer 模型中使用的标准 Softmax 注意力,从而将空间和时间复杂度从二次降低为线性。复杂度的降低使 Performer 可用于具有更长序列长度的应用。此外,FAVOR + 注意力机制与现有的 Transformer 模型完全向后兼容,比其他方案(如稀疏注意力机制)更具优势。
Transformer 神经网络架构是序列学习的常见选择,尤其是在 NLP 的研究中。与之前的架构相比,Transformer 具有多个优势,例如循环神经网络(RNN);特别是在整个序列上并行执行允许网络“记住”序列中先前项目的自注意力机制,加快了训练和推理的速度。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢