SingMOS: An extensive Open-Source Singing Voice Dataset for MOS Prediction

2024年06月16日
  • 简介
    在语音生成任务中,通常将人类主观评分称为“黄金标准”,被视为语音质量评估的主要指标,平均意见分数(MOS)则是其主要评估指标。由于人工注释的成本较高,在语音领域出现了几种MOS预测系统,表现良好。这些MOS预测模型是使用以前语音相关挑战的注释进行训练的。然而,与语音领域相比,唱歌领域面临着数据稀缺和更严格的版权保护,导致缺乏高质量的用于唱歌的MOS注释数据集。为解决这个问题,我们提出了SingMOS,这是一个高质量和多样化的唱歌MOS数据集,涵盖了一系列中日数据集。这些合成的人声是使用最先进的唱歌合成、转换或重新合成模型生成的,并由专业注释员与真实人声一起进行评分。数据分析证明了我们数据集的多样性和可靠性。此外,我们对SingMOS进行了进一步的探索,为唱歌MOS预测提供了见解,并为SingMOS的持续扩展提供了指导。
  • 图表
  • 解决问题
    论文旨在解决唱歌领域缺乏高质量MOS数据集的问题,提出了一个新的高质量、多样化的MOS数据集SingMOS。
  • 关键思路
    通过使用最先进的唱歌合成、转换或重构模型生成合成唱声,并与真实唱声一起由专业评估员进行评分,构建了一个高质量、多样化的MOS数据集SingMOS。论文还探讨了SingMOS对唱歌MOS预测的启示和指导。
  • 其它亮点
    SingMOS是一个高质量、多样化的MOS数据集,覆盖了一系列中文和日文数据集。论文还对SingMOS进行了数据分析,提供了有关唱歌MOS预测的见解,并为SingMOS的持续扩展提供了指导。
  • 相关研究
    最近的相关研究包括使用深度学习模型进行语音合成和转换的研究,例如“Deep Voice”和“WaveNet”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论