ASRRL-TTS: Agile Speaker Representation Reinforcement Learning for Text-to-Speech Speaker Adaptation

向作者提问

NEW

简介

说话人适应是指在文本转语音任务中，从未见过的说话人中克隆声音，由于其在多媒体领域中的众多应用，因此受到了广泛关注。尽管最近有了一些进展，但现有方法常常在说话人表征精度和过拟合方面遇到困难，特别是在有限的参考语音场景中。为了应对这些挑战，我们提出了一种敏捷说话人表征强化学习策略，以增强说话人适应任务中的说话人相似性。ASRRL是第一个应用强化学习来提高说话人嵌入建模精度的工作，解决了解耦声音内容和音色的挑战。我们的方法引入了两种针对不同参考语音场景的行动策略。在单句场景中，采用面向知识的最优例行搜索RL方法，以加快探索和检索说话人表征边缘的细化信息。在少数句子的场景中，我们利用动态RL方法来自适应地融合参考语音，增强说话人建模的鲁棒性和准确性。为了在目标领域实现最佳结果，我们提出了一种基于多尺度融合评分机制的奖励模型，该模型在三个维度上评估说话人相似性、语音质量和可懂度，确保说话人相似性的提高不会影响语音质量或可懂度。在主流TTS框架中的LibriTTS和VCTK数据集上的实验结果证明了所提出的ASRRL方法的可扩展性和泛化能力。结果表明，ASRRL方法在有限的参考语音情况下显著优于传统的微调方法，具有更高的说话人相似度和更好的整体语音质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决语音合成中的说话人自适应问题，提高模型对未知说话人的声音克隆准确度和泛化性能。
关键思路

本文提出了一种基于增强学习的敏捷说话人表示策略（ASRRL），通过两种针对不同参考语音场景的行动策略来增强说话人相似性，解决了语音内容和音色的解耦问题。同时，提出了一种基于多尺度融合评分机制的奖励模型，以评估说话人相似性、语音质量和可懂性三个维度的综合效果。
其它亮点

本文的实验结果表明，ASRRL方法在LibriTTS和VCTK数据集上表现出良好的泛化能力和可扩展性，明显优于传统的微调方法。此外，本文还开源了相关代码，为该领域的后续研究提供了有价值的参考。
相关研究

近年来，语音合成领域的说话人自适应问题备受关注，相关研究包括《Neural Voice Cloning with a Few Samples》、《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问