TTSDS -- Text-to-Speech Distribution Score

2024年07月17日
  • 简介
    许多最近发布的文本到语音(TTS)系统可以生成接近真实语音的音频。然而,需要重新审视TTS评估,以理解使用新架构、方法和数据集获得的结果。我们建议将合成语音的质量评估作为多个因素的组合,例如韵律、说话者身份和可懂度。我们的方法通过获取每个因素的相关性并测量它们与真实语音数据集和噪声数据集的距离,评估合成语音与真实语音的相似程度。我们对2008年至2024年开发的35个TTS系统进行基准测试,并展示我们计算得出的得分作为因素的加权平均值与每个时间段的人类评估强烈相关。
  • 作者讲解
  • 图表
  • 解决问题
    评估TTS系统的质量需要重新审视,以适应新的架构、方法和数据集。该论文提出了一种评估合成语音质量的方法,将多个因素(如韵律、说话人身份和可懂性)结合起来进行评估。
  • 关键思路
    该论文提出的方法通过获取每个因素的相关性,并测量它们与真实语音数据集和噪声数据集之间的距离,来评估合成语音与真实语音的相似程度。
  • 其它亮点
    论文评估了35个TTS系统,设计了实验并使用了多个数据集,证明了该方法与人类评估结果的强相关性。此外,该论文提出的方法可以用于评估不同因素对合成语音质量的影响,并且有助于改进TTS系统的设计。
  • 相关研究
    最近的相关研究包括“Recent Advances in Neural Text-to-Speech Synthesis”和“Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron”等论文。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问