STONE: Self-supervised Tonality Estimator

简介

尽管深度神经网络可以估计音乐作品的调性，但其监督需要大量的注释工作。针对这个缺点，我们提出了STONE，第一个自我监督的调性估计器。STONE背后的架构名为ChromaNet，是一个具有八度等价性的卷积神经网络，输出12个结构化对数的关键签名文件(KSP)。首先，我们训练ChromaNet来回归同一音频轨道中任意两个未标记的音乐片段之间的人工音高变换，这些变换是在五度圆圈（CoF）内测量的交叉功率谱密度（CPSD）。我们观察到，这种自我监督的前提任务导致KSP与音调关键签名相关。基于这一观察结果，我们扩展STONE以输出一个结构化的24个对数的KSP，并引入监督来消除共享相同关键签名的大调和小调之间的歧义。应用不同程度的监督可产生半监督和全监督的调性估计器：即Semi-TONE和Sup-TONE。我们在FMAK上评估了这些估计器，这是一个新的数据集，包含5489个具有24个主要和次要键的专家注释的真实世界音乐录音。我们发现，Semi-TONE在减少监督的情况下与Sup-TONE的分类准确率相匹配，并在相等的监督下表现更好。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

STONE试图解决音乐调性估计的监督学习需要大量标注的问题，提出了一种自监督学习的方法。
关键思路

STONE使用自监督学习的方法，通过训练ChromaNet对两个未标注的音频片段进行人工音高转换的预测任务，来学习和调性相关的特征，并扩展到24个结构化logits的KSP，然后通过监督学习来区分共享相同调号的大调和小调。
其它亮点

论文提出了一种自监督学习的方法，避免了大量标注的问题。使用了一个新的数据集FMAK进行实验，并与其他方法进行比较。Semi-TONE模型在减少监督的情况下与Sup-TONE模型的分类准确率相当，并且在相同的监督下表现更好。
相关研究

最近的相关研究包括：《Deep Learning for Music》、《Music Information Retrieval》等。

STONE: Self-supervised Tonality Estimator

提问交流

提问交流