Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation

简介

文本生成中的注意力机制由于其顺序特性而受到内存限制。因此，为了加快执行速度，应尽量减少离线存储器访问。虽然以前的方法通过修剪不重要的标记来解决这个问题，但它们在选择性地删除每个实例中几乎没有注意概率的标记方面存在不足。我们的方法在softmax函数之前估计概率，有效地删除低概率标记，并实现了12.1倍的修剪比率，无需微调。此外，我们提出了一种支持无缝按需离线存储器访问的硬件设计。我们的方法显示出2.6倍减少内存访问，导致平均2.3倍的加速和2.4倍的能量效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何优化文本生成中的注意力机制以提高执行速度和能效？
关键思路

本论文提出了一种在softmax函数之前估计概率的方法，有效地移除低概率的token，从而实现了12.1倍的剪枝比率。此外，论文还提出了一个支持按需访问离线存储器的硬件设计。
其它亮点

实验结果表明，该方法可以将内存访问次数减少2.6倍，平均加速比为2.3倍，能效提高了2.4倍。
相关研究

与该论文相关的研究包括：《Deep contextualized word representations》、《Attention is all you need》等。