USAT: A Universal Speaker-Adaptive Text-to-Speech Approach

IEEE/ACM Transactions on Audio, Speech and Language Processing, 2024
2024年04月28日
  • 简介
    传统的文本转语音(TTS)研究主要集中在提高训练数据集中说话者合成语音的质量上。对于未见过的、有限参考数据的说话者合成逼真语音的挑战仍然是一个重大而未解决的问题。虽然已经探索了零样本或少样本说话者自适应TTS方法,但它们有许多限制。零样本方法往往在重口音说话者的语音还原方面具有不足的泛化性能。而少样本方法可以还原高度变化的口音,但会带来重大的存储负担,并有过拟合和灾难性遗忘的风险。此外,先前的方法只提供零样本或少样本自适应,限制了它们在不同需求的各种实际场景中的实用性。此外,大多数当前的说话者自适应TTS评估仅在本地说话者数据集上进行,无意中忽略了具有不同口音的大量非本地说话者。我们提出的框架统一了零样本和少样本说话者自适应策略,我们称之为“即时”和“精细”自适应,基于它们的优点。为了缓解零样本说话者自适应中出现的不足泛化性能,我们设计了两个创新的鉴别器,并引入了一个记忆机制用于语音解码器。为了防止灾难性遗忘和减少少样本说话者自适应的存储影响,我们设计了两个适配器和一个独特的自适应过程。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何为未出现在训练集中的说话人进行语音合成的问题。已有的零样本或少样本说话人自适应TTS方法存在一些限制,如泛化性能不足、存储负担大、过拟合和灾难性遗忘等。
  • 关键思路
    论文提出了一种统一的框架,将零样本和少样本说话人自适应策略相结合,称之为“即时”和“精细”自适应。其中,为了解决零样本说话人自适应中的泛化性能不足问题,设计了两个创新的判别器和引入了一种记忆机制。为了避免少样本说话人自适应中的过拟合和灾难性遗忘问题,设计了两个适配器和一种独特的自适应过程。
  • 其它亮点
    论文使用了多个数据集进行实验,包括非母语说话人的数据集。研究人员还开源了他们的代码,并提供了详细的实现细节。值得进一步研究的是,如何将这种方法应用于其他语音识别和语音合成任务。
  • 相关研究
    最近的相关研究包括《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》、《Meta-Learning for Low-Resource Neural Machine Translation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问