The FFT Strikes Back: An Efficient Alternative to Self-Attention

2025年02月25日
  • 简介
    传统的自注意力机制具有二次复杂度,限制了其在长序列上的可扩展性。我们引入了FFTNet,这是一种自适应频谱滤波框架,利用快速傅里叶变换(FFT)在$\mathcal{O}(n\log n)$时间内实现全局标记混合。通过将输入转换到频域,FFTNet利用帕塞瓦尔定理保证的正交性和能量守恒,高效捕捉长距离依赖关系。一个可学习的频谱滤波器和modReLU激活函数动态强调显著的频率分量,为传统自注意力提供了一种严谨且自适应的替代方案。在长距离竞技场(Long Range Arena)和ImageNet基准测试上的实验验证了我们的理论见解,并展示了相比固定傅里叶和标准注意力模型的优越性能。
  • 图表
  • 解决问题
    该论文试图解决传统自注意力机制在处理长序列时遇到的计算复杂度问题。由于自注意力机制的时间复杂度为O(n^2),这限制了其在处理长序列数据上的可扩展性。这是一个在自然语言处理和计算机视觉领域中广泛存在的问题。
  • 关键思路
    论文提出了一种名为FFTNet的新框架,利用快速傅里叶变换(FFT)将输入转换到频域,在O(n log n)时间内实现全局token混合。通过引入可学习的频谱滤波器和modReLU激活函数,FFTNet能够动态强调重要的频率分量,从而提供一种更高效且适应性强的替代方案来捕捉长距离依赖关系。相比传统的自注意力机制,这种方法不仅降低了时间复杂度,还提高了对长序列数据处理的能力。
  • 其它亮点
    实验设计方面,研究者们选择了Long Range Arena和ImageNet这两个基准测试集来进行验证,并证明了FFTNet模型在性能上优于固定的傅里叶变换及标准注意力模型。此外,FFTNet利用Parseval定理保证了能量守恒,确保了信息传递的有效性。目前没有提及开源代码,但未来可以进一步探索如何优化FFTNet以适用于更多类型的任务或改进其架构。
  • 相关研究
    近期在这个领域内还有一些其他的研究工作,例如《Linear Transformers Are Secretly Fast Fourier Nets》、《FNet: Mixing Tokens with Fourier Transforms》以及《Spectformer: Rethinking Global Attention for Efficient Transformers》等论文都探讨了使用傅里叶变换或其他方法来改善Transformer模型效率的可能性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论