Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback

2024年06月02日
  • 简介
    近年来,文本转语音(TTS)技术取得了令人瞩目的进展,尤其是在大规模训练数据集方面,展示了人类水平的语音质量和对未知说话者的令人印象深刻的零样本能力。然而,尽管人类主观评估,如平均意见分数(MOS),仍然是评估合成语音质量的黄金标准,但即使是最先进的TTS方法也将人类反馈与训练隔离开来,导致了不匹配的训练目标和评估指标。在这项工作中,我们探讨了将主观人类评估整合到TTS训练循环中的新颖主题。受到从人类反馈中获得强化学习的最近成功的启发,我们提出了一个专门针对TTS优化的全面采样-注释-学习框架,即不确定性感知优化(UNO)。具体而言,UNO通过考虑主观人类语音感知和评估中固有的变异性来直接最大化语音生成的效用,从而消除了奖励模型或偏好数据的需求。主观和客观评估的实验结果表明,UNO在MOS、词错误率和说话者相似度方面显著提高了TTS模型的零样本性能。此外,我们展示了UNO的一个显着能力,即它可以无缝灵活地适应情感TTS中所需的说话风格。
  • 图表
  • 解决问题
    本论文旨在解决TTS技术中存在的问题,即如何将主观人类评价融入到训练过程中,以提高合成语音的质量和性能。
  • 关键思路
    论文提出了一种基于不确定性感知的优化框架UNO,通过直接最大化语音生成的效用,同时考虑到主观人类语音感知和评价中存在的不确定性,从而消除了奖励模型或偏好数据的需求。
  • 其它亮点
    论文的实验结果表明,UNO显著提高了TTS模型的零样本性能,包括MOS、词错误率和说话人相似度。此外,UNO还能够无缝、灵活地适应情感TTS的所需语音风格。论文使用了大量的数据集和实验设计,并且提供了开源代码。
  • 相关研究
    最近的相关研究包括使用强化学习来优化TTS模型的方法,以及利用GAN等技术来提高合成语音的质量。例如,论文[1]提出了一种基于强化学习的TTS优化框架,而论文[2]则探讨了如何使用GAN来生成高质量的语音。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论