EAT: Self-Supervised Pre-Training with Efficient Audio Transformer

2024年01月07日
  • 简介
    本文介绍了一种名为Efficient Audio Transformer(EAT)的方法,旨在通过自我监督学习(SSL)预训练从无标签音频中学习良好的表示。由于预训练期间的广泛计算需求,这对于音频SSL模型的潜在应用和优化构成了重大障碍。EAT采用引导自我监督训练范例到音频领域,并设计了一种新型的Utterance-Frame Objective(UFO),以增强声音事件的建模能力。此外,本文揭示了掩蔽策略在音频SSL预训练中的关键性,可以通过大型反向块掩蔽获得更优的音频表示。实验结果表明,EAT在一系列与音频相关的任务上实现了最先进的性能,包括AudioSet(AS-2M、AS-20K)、ESC-50和SPC-2,同时相对于现有的音频SSL模型,预训练速度提高了约15倍。
  • 图表
  • 解决问题
    本论文旨在解决音频自监督学习(SSL)预训练过程中的计算需求过高的问题,提出了一种高效的音频Transformer模型(EAT),以提高音频SSL模型的效率和效果。
  • 关键思路
    EAT采用引导式自监督训练范式,设计了一种新的话语-帧目标(UFO)来增强声学事件的建模能力,并揭示了掩蔽策略在音频SSL预训练中的重要性。EAT在多个音频相关任务上取得了最先进的性能,并且相比现有的音频SSL模型,预训练速度提高了约15倍。
  • 其它亮点
    论文使用了多个数据集进行实验验证,包括AudioSet(AS-2M,AS-20K),ESC-50和SPC-2。实验结果表明,EAT在这些数据集上都取得了最先进的性能。此外,论文还开源了代码,可供研究者使用。
  • 相关研究
    最近的相关研究包括:《Data2Vec 2.0: A Vector Space Model for Music》、《Audio-MAE: A Multi-Task Learning Framework for Weakly-Supervised Audio Classification》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论