- 简介说话人适应是指在文本转语音任务中,从未见过的说话人中克隆声音,由于其在多媒体领域中的众多应用,因此受到了广泛关注。尽管最近有了一些进展,但现有方法常常在说话人表征精度和过拟合方面遇到困难,特别是在有限的参考语音场景中。为了应对这些挑战,我们提出了一种敏捷说话人表征强化学习策略,以增强说话人适应任务中的说话人相似性。ASRRL是第一个应用强化学习来提高说话人嵌入建模精度的工作,解决了解耦声音内容和音色的挑战。我们的方法引入了两种针对不同参考语音场景的行动策略。在单句场景中,采用面向知识的最优例行搜索RL方法,以加快探索和检索说话人表征边缘的细化信息。在少数句子的场景中,我们利用动态RL方法来自适应地融合参考语音,增强说话人建模的鲁棒性和准确性。为了在目标领域实现最佳结果,我们提出了一种基于多尺度融合评分机制的奖励模型,该模型在三个维度上评估说话人相似性、语音质量和可懂度,确保说话人相似性的提高不会影响语音质量或可懂度。在主流TTS框架中的LibriTTS和VCTK数据集上的实验结果证明了所提出的ASRRL方法的可扩展性和泛化能力。结果表明,ASRRL方法在有限的参考语音情况下显著优于传统的微调方法,具有更高的说话人相似度和更好的整体语音质量。
-
- 图表
- 解决问题本文旨在解决语音合成中的说话人自适应问题,提高模型对未知说话人的声音克隆准确度和泛化性能。
- 关键思路本文提出了一种基于增强学习的敏捷说话人表示策略(ASRRL),通过两种针对不同参考语音场景的行动策略来增强说话人相似性,解决了语音内容和音色的解耦问题。同时,提出了一种基于多尺度融合评分机制的奖励模型,以评估说话人相似性、语音质量和可懂性三个维度的综合效果。
- 其它亮点本文的实验结果表明,ASRRL方法在LibriTTS和VCTK数据集上表现出良好的泛化能力和可扩展性,明显优于传统的微调方法。此外,本文还开源了相关代码,为该领域的后续研究提供了有价值的参考。
- 近年来,语音合成领域的说话人自适应问题备受关注,相关研究包括《Neural Voice Cloning with a Few Samples》、《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流