- 简介许多最近发布的文本到语音(TTS)系统可以生成接近真实语音的音频。然而,需要重新审视TTS评估,以理解使用新架构、方法和数据集获得的结果。我们建议将合成语音的质量评估作为多个因素的组合,例如韵律、说话者身份和可懂度。我们的方法通过获取每个因素的相关性并测量它们与真实语音数据集和噪声数据集的距离,评估合成语音与真实语音的相似程度。我们对2008年至2024年开发的35个TTS系统进行基准测试,并展示我们计算得出的得分作为因素的加权平均值与每个时间段的人类评估强烈相关。
-
- 图表
- 解决问题评估TTS系统的质量需要重新审视,以适应新的架构、方法和数据集。该论文提出了一种评估合成语音质量的方法,将多个因素(如韵律、说话人身份和可懂性)结合起来进行评估。
- 关键思路该论文提出的方法通过获取每个因素的相关性,并测量它们与真实语音数据集和噪声数据集之间的距离,来评估合成语音与真实语音的相似程度。
- 其它亮点论文评估了35个TTS系统,设计了实验并使用了多个数据集,证明了该方法与人类评估结果的强相关性。此外,该论文提出的方法可以用于评估不同因素对合成语音质量的影响,并且有助于改进TTS系统的设计。
- 最近的相关研究包括“Recent Advances in Neural Text-to-Speech Synthesis”和“Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron”等论文。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流