- 简介音频嵌入是理解大型音乐目录的关键工具。通常,嵌入是基于它们在广泛的下游任务中提供的性能进行评估,然而很少有研究调查嵌入空间本身的局部属性,这在最近邻算法中非常重要,这是音乐搜索和推荐中常用的算法。在这项工作中,我们展示了通过对比学习在音乐数据集上学习音频表示时,通常在一首曲目中同质的音乐属性(例如键和速度)在结果嵌入空间中的邻域局部性中得到了体现。通过应用适当的数据增强策略,这些属性的局部化不仅可以减少,而且可以增加其他属性的局部化。例如,对于非专业听众不太相关的音高和速度等特征的局部性可以得到缓解,同时提高更突出的特征(如流派和情绪)的局部性,从而实现最先进的最近邻检索准确性。同样,我们还展示了对比学习音乐音频嵌入的数据增强策略的最佳选择取决于下游任务,强调这是一个重要的嵌入设计决策。
-
- 图表
- 解决问题本文旨在探究音频嵌入空间的局部属性,该属性对于最近邻算法在音乐搜索和推荐中的应用至关重要。同时,本文还试图通过适当的数据增强策略来降低某些属性的局部性,提高其他属性的局部性。
- 关键思路本文通过对音乐数据集进行对比学习来学习音频表示。研究表明,音乐的一些属性(如键和速度)在嵌入空间的局部性中得到了反映,而适当的数据增强策略可以降低这些属性的局部性并提高其他属性的局部性,从而提高最近邻检索的准确性。
- 其它亮点本文的实验结果表明,采用适当的数据增强策略可以显著提高最近邻检索的性能。此外,本文提出的方法在音乐搜索和推荐中具有广泛应用价值。本文使用的数据集包括MagnaTagATune和Million Song Dataset,并且开源了代码。
- 在音频表示学习领域,有许多相关的研究。例如,'Learning Representations for Automatic Music Classification'和'Learning Audio Representations from Sparse Annotations'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流