- 简介在语音生成任务中,通常将人类主观评分称为“黄金标准”,其中平均意见分数(MOS)作为主要评估指标。由于人工注释的成本较高,在语音领域出现了几个MOS预测系统,表现良好。这些MOS预测模型是使用先前语音相关挑战的注释进行训练的。然而,与语音领域相比,歌唱领域面临数据稀缺和更严格的版权保护,导致缺乏高质量的歌唱MOS注释数据集。为了解决这个问题,我们提出了SingMOS,这是一个高质量和多样化的歌唱MOS数据集,涵盖了一系列中文和日文数据集。这些合成的人声是使用最先进的歌唱合成、转换或重新合成任务模型生成的,并由专业注释员与真实人声一起进行评分。数据分析表明了我们数据集的多样性和可靠性。此外,我们对SingMOS进行了进一步探索,为歌唱MOS预测提供了见解,并为SingMOS的持续扩展提供了指导。
- 图表
- 解决问题论文旨在解决歌唱领域数据稀缺和版权保护严格的问题,提出了一个高质量且多样化的歌唱 MOS 数据集 SingMOS。
- 关键思路论文使用最先进的歌唱合成、转换或重构模型生成了合成人声,并与真实人声一起由专业评估员进行评分,从而构建了 SingMOS 数据集。该数据集可用于歌唱 MOS 预测的训练和评估,为歌唱领域的研究提供了新思路。
- 其它亮点SingMOS 数据集的多样性和可靠性得到了数据分析的证明。论文还提供了有关歌唱 MOS 预测和 SingMOS 数据集扩展的指导和见解。
- 在歌唱领域的相关研究包括“Singing Voice Separation with Deep U-Net Convolutional Networks”和“Singing Voice Detection with a Pretrained Convolutional Neural Network”。
沙发等你来抢
去评论
评论
沙发等你来抢