QKFormer: Hierarchical Spiking Transformer using Q-K Attention

2024年03月25日
  • 简介
    Spiking Transformers是将脉冲神经网络(SNNs)与Transformer架构相结合的模型,由于其节能高效的潜力,已经引起了广泛关注。然而,该领域现有的模型仍然存在性能不佳的问题。为了提高性能,作者提出了几个创新点:i)他们提出了一种新颖的脉冲形式Q-K注意机制,专门针对SNNs,通过具有线性复杂度的二进制向量有效地建模标记或通道维度的重要性。ii)他们将分层结构纳入脉冲变压器中,这对大脑和人工神经网络的性能都有很大的好处,从而获得多尺度脉冲表示。iii)他们设计了一个通用而强大的补丁嵌入模块,具有特殊的变形快捷方式,专门用于脉冲变压器。综上所述,他们开发了QKFormer,这是一个基于Q-K注意力的分层脉冲变压器,可以直接进行训练。在各种主流数据集上,QKFormer的性能显著优于现有的最先进的SNN模型。值得注意的是,在与Spikformer(66.34 M,74.81%)大小相当的情况下,QKFormer(64.96 M)在ImageNet-1k上实现了85.65%的突破性top-1准确率,比Spikformer高出10.84%。据我们所知,这是直接训练SNN在ImageNet-1K上首次超过85%准确率。代码和模型可在https://github.com/zhouchenlin2096/QKFormer上公开获取。
  • 图表
  • 解决问题
    本论文旨在提高Spiking Transformer的性能,解决其现有模型性能不佳的问题。这是否是一个新问题?
  • 关键思路
    本论文提出了几个创新点来提高Spiking Transformer的性能,包括针对SNNs量身定制的spike-form Q-K attention机制、将分层结构引入Spiking Transformer以获得多尺度Spiking表示、以及设计了一种具有变形快捷方式的通用的强大的补丁嵌入模块。
  • 其它亮点
    实验结果表明,QKFormer在各种主流数据集上的性能都显著优于现有的最先进的SNN模型。特别是,在与Spikformer大小相当的情况下(66.34 M,74.81%),QKFormer(64.96 M)在ImageNet-1k上取得了85.65%的创纪录的top-1准确率,比Spikformer高出10.84%。这是直接训练SNN在ImageNet-1K上首次超过85%准确率的记录。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:SNNs和Transformer的结合已经得到了广泛的关注,包括SpikyFormer、SpikeFormer和Spike-MLM等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论