标题:伦敦玛丽皇后大学、环球音乐集团|MusCaps: Generating Captions for Music Audio(MusCaps:为音乐生成音频字幕)

简介:基于内容的音乐信息检索随着深度学习迅速发展。当前通常使用音乐描述的方法分类模型,例如自动标记或体裁中的分类模型,以及情绪分类。在这项工作中,我们建议通过音频字幕描述解决音乐问题,定义像人一样为音乐生成音频内容的自然语言描述,我们展示了第一个音乐音频字幕模型MusCaps,由编码器-解码器组成时域注意力。我们的方法结合了卷积和递归神经网络结构,以通过多模态编码器共同处理音频文本输入,并利用对音频数据的预训练来获得有效的表示形式捕获并总结输入中的音乐特征。评估表明通过自动生成的字幕显示,我们的方法优于为非音乐设计的基准音频字幕。通过消融研究,我们发现绩效提升主要归因于音频编码器,以及其他设计选择(模态融合,解码策略和注意力的使用)仅作勉强贡献。我们的模型代表了从基于分类的音乐描述的转变,并在音乐信息检索中结合了需要听觉和语言理解以弥合语义鸿沟。

代码:https://github.com/ilaria-manco/muscaps 

论文下载:https://arxiv.org/pdf/2104.11984.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除