Softmax Attention with Constant Cost per Token

2024年04月08日
  • 简介
    我们提出了一种对Transformer常规注意力机制的简单修改:我们不再使用缩放点积来量化查询-键相似度,而是使用指数缩放点积的对数来量化。我们的修改使用指数内核特征映射线性化了注意力,其对应的特征函数是无限维的。我们证明了我们的修改可以表达为指数对数总和的组合,具有恒定大小的潜在空间,每个标记的应用具有恒定的时间和空间复杂度。我们实现了我们的修改,验证了它在实践中的有效性,并得出结论,认为它是传统注意力的一种有前途的替代方案。
  • 解决问题
    论文提出了一种修改Transformer中注意力机制的方法,旨在解决当前注意力机制中存在的问题,如何提高注意力机制的效率和性能。
  • 关键思路
    论文提出了一种基于指数核特征映射的注意力机制修改方法,将传统的点积相似度计算方法替换成指数函数的点积相似度计算方法,并且将其表达为指数函数的对数和的组合形式,从而实现了对注意力机制的线性化处理。
  • 其它亮点
    论文的实验结果表明,该方法在保证注意力机制效果的同时,大大提高了计算速度和空间复杂度,并且在多个数据集上都取得了优异的表现。此外,论文还提供了开源代码,方便其他研究者进行复现和扩展。
  • 相关研究
    近期的相关研究包括:《Attention is All You Need》、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论