SchoenbAt: Rethinking Attention with Polynomial basis

2025年05月18日
  • 简介
    核化注意力通过使用核函数建模序列相关性,扩展了传统的注意力机制,并在优化注意力方面取得了显著进展。在调和分析理论的保证下,核函数可以利用基函数进行展开,这启发了基于随机特征的方法,以在保持预测性能的同时提高核化注意力的效率。然而,当前基于随机特征的工作主要局限于博赫纳定理下的傅里叶基展开。我们提出了基于舒恩伯格定理的注意力机制(SchoenbAt),它通过随机麦劳林特征,在舒恩伯格定理的框架下,用多项式基近似点积核化注意力,并引入两阶段正则化方法来约束输入空间并恢复输出尺度,从而作为点积核化注意力的直接替代方案。我们对SchoenbAt的无偏性和集中误差界进行了理论证明,支持其作为核化注意力近似的高效性和准确性,这一点也在不同随机特征维度下得到了实证验证。在真实数据集上的评估表明,SchoenbAt显著提升了计算速度,同时在精度方面保持了竞争力,优于多种高效的注意力方法。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决如何高效地近似核化注意力机制的问题,以在优化计算效率的同时保持预测性能。这是一个重要问题,因为传统的核化注意力机制在处理长序列时计算成本较高。
  • 关键思路
    论文提出了一种基于Schoenberg定理的注意力方法(SchoenbAt),通过使用随机Maclaurin特征来近似点积核化注意力,并引入两阶段正则化以约束输入空间和恢复输出尺度。相比当前主要依赖Bochner定理和傅里叶基展开的工作,SchoenbAt利用多项式基展开,提供了一种新的思路。
  • 其它亮点
    论文通过理论证明了SchoenbAt的无偏性和集中误差界,验证了其高效性和准确性。实验在多个真实数据集上进行,结果表明SchoenbAt显著提升了计算速度,同时保持了较高的精度。代码是否开源未明确提及,但未来可以进一步研究如何将此方法扩展到其他类型的核函数或更复杂的任务中。
  • 相关研究
    近期相关研究包括:1) 使用随机特征的高效注意力方法,如《Random Feature Attention》;2) 基于线性化核函数的注意力优化,如《Linformer: Self-Attention with Linear Complexity》;3) 其他高效的注意力变体,如《Performer: Generalized Attention Using Positive Definite Kernels》。这些工作大多集中在傅里叶基展开或特定核函数的近似,而本论文则探索了多项式基展开的新方向。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问