标题:清华、微软|Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer (Smart Bird:可学习的稀疏注意力高效有效的变换器)

作者:清华信息认知和智能系统研究所副所长Chuhan Wu、黄永锋教授

简介:本文提出了一种解决变换器性能瓶颈的新方法。变换器在自然语言处理取得了巨大的成功。然而,变换器中的自注意力机制二次复杂度使其在处理长序列时效率低下。许多现有的文章探索通过计算稀疏而不是密集的来加速变换器自注意力,通常在某些位置关注符号或随机选择的符号。但是,手动选定的或随机的符号可能无法提供上下文建模的信息。在本文中,作者提出Smart Bird,这是一种高效且具有可学习稀疏注意力的有效变换器。在Smart Bird中,作者首先计算一个带有单头的注意矩阵低维草图变换器,旨在发现潜在的重要相互作用符号。然后作者根据符号对进行采样他们的概率分数来自绘制注意力矩阵以生成不同的注意力头的稀疏注意力索引矩阵。最后,作者根据索引矩阵选择标记嵌入以形成稀疏注意力网络的输入。在六个基准数据集上进行了广泛的实验对于不同的任务验证效率和Smart Bird在文本建模中的有效性。

论文下载:https://arxiv.org/pdf/2108.09193v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除