【标题】Audio Transformers:Transformer Architectures For Large Scale Audio Understanding. Adieu Convolutions

【作者团队】P Verma, J Berger

【论文链接】https://arxiv.org/abs/2105.00335

【发表时间】2021.5.5

【推荐理由】

本文将基于Transformer的架构应用于原始音频信号,不需要使用卷积层。

过去20年中,CNN架构通过学习特征的分层组织,产生了令人信服的声音感知和认知模型。类似于计算机视觉的成功,音频特征分类可在各种数据集和标签上针对特定的兴趣任务进行优化。为图像理解设计的类似架构已被证明对声学场景分析有效。本文将基于Transformer的架构应用于原始音频信号,不需要使用卷积层。在由200个类别组成的标准数据集Free Sound 50K上,所提出模型优于卷积模型,产生了最先进的结果。通过使用从过去几年设计的卷积网络中获得灵感的池化等技术,进一步提高了Transformer架构的性能。展示了如何将受小波启发的多速率信号处理思想应用于Transformer嵌入以改善结果,展示了模型是如何学习非线性非恒定带宽滤波器库,显示了一个适应音频理解任务的时间频率前端表示。

内容中包含的图片若涉及版权问题,请及时与我们联系删除