Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning

简介

本文介绍了一种新型的Spiking Tucker Fusion Transformer（STFT）用于音视频零样本学习。STFT利用不同时间步骤的时间和语义信息生成鲁棒的表示。引入时间步因子（TSF）来动态合成后续推理信息。为了指导输入膜电位的形成并减少尖峰噪声，我们提出了全局局部池化（GLP），它结合了最大池化和平均池化操作。此外，根据语义和时间线索动态调整尖峰神经元的阈值。由于直接双线性模型中参数数量的增加，整合SNN和Transformer提取的时间和语义信息是困难的。为了解决这个问题，我们引入了一个时间-语义Tucker融合模块，它实现了SNN和Transformer输出的多尺度融合，同时保持了完整的二阶交互。我们的实验结果证明了该方法在三个基准数据集中实现了最先进的性能。VGGSound、UCF101和ActivityNet的谐波平均（HM）改进分别约为15.4\%、3.9\%和14.9\%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决将SNN和Transformer相结合的挑战，以实现音频-视觉零样本学习的目标。
关键思路

论文提出了一种新的Spiking Tucker Fusion Transformer（STFT）模型，通过引入时间步长因子（TSF）和全局-局部池化（GLP）来动态合成后续推理信息，同时根据语义和时间线索动态调整尖峰神经元的阈值，实现了SNN和Transformer输出的多尺度融合。
其它亮点

论文在三个基准数据集上进行了实验，实验结果表明所提出的方法在VGGSound、UCF101和ActivityNet上都取得了最先进的性能。本文的亮点在于其新颖的模型架构和动态调整阈值的方法。
相关研究

与本文相关的研究包括使用SNN进行音频处理的研究，以及使用Transformer进行多模态融合的研究。

Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning

提问交流

提问交流