- 简介虽然Transformer已经成为了卓越的神经网络结构,但是已经出现了几条独立的研究线来解决它的局限性。循环神经网络方法也引起了很多新的关注,包括扩展的长短时记忆(xLSTM)结构,它使原始的LSTM结构重新焕发生机。然而,尽管与Transformer相比,xLSTM表现出了竞争性的性能,但它们作为学习自监督通用音频表示的可行性尚未得到评估。本文提出了一种名为Audio xLSTM(AxLSTM)的方法,用于在自我监督的情况下从掩蔽的频谱图块中学习音频表示。在预训练了AudioSet数据集之后,所提出的AxLSTM模型在十个不同的下游任务集上相对于可比较的自我监督音频频谱图Transformer(SSAST)基线表现提高了高达20%,同时参数减少了高达45%。
- 图表
- 解决问题本文旨在解决学习自监督通用音频表示的问题,提出了一种基于xLSTM的方法AxLSTM,并与transformer进行比较。
- 关键思路AxLSTM是一种基于xLSTM的自监督学习方法,用于学习音频表示。在预训练过程中,AxLSTM使用被掩盖的频谱图块。相比于transformer,AxLSTM在10个不同的下游任务中表现更好,参数更少。
- 其它亮点本文提出了一种新的自监督学习方法AxLSTM,用于学习音频表示。实验表明,AxLSTM比transformer在不同下游任务中表现更好。此外,AxLSTM具有更少的参数。本文使用的数据集是AudioSet,代码已经开源。
- 最近在这个领域中,还有一些相关的研究。例如,基于transformer的自监督学习方法SSAST。
沙发等你来抢
去评论
评论
沙发等你来抢