Multilingual Prosody Transfer: Comparing Supervised & Transfer Learning

2024年05月23日
  • 简介
    语音合成系统中的韵律转移领域正在迅速发展。本研究旨在评估学习方法,以适应预先训练的单语文本到语音 (TTS) 模型到多语言环境,即监督微调 (SFT) 和迁移学习 (TL)。这种比较利用了三个不同的指标:平均意见分数 (MOS),识别准确度 (RA) 和梅尔倒谱失真 (MCD)。结果表明,与 SFT 相比,TL 可以显著提高性能,平均 MOS 提高了 1.53 分,RA 增加了 37.5%,MCD 大约提高了 7.8 分。这些发现对于帮助构建低资源语言的 TTS 模型至关重要。
  • 图表
  • 解决问题
    本论文旨在评估学习方法以适应多语言条件下的预先训练的单语言文本到语音模型,以解决低资源语言的TTS模型建立问题。
  • 关键思路
    通过比较监督微调(SFT)和迁移学习(TL)两种方法,论文发现相比SFT,TL可以显著提高性能,具体表现为平均MOS得分提高了1.53分,RA提高了37.5%,MCD提高了约7.8分。
  • 其它亮点
    论文使用了MOS,RA和MCD三个指标进行了实验评估,结果表明TL方法在多语言条件下具有更好的性能。该研究对于解决低资源语言的TTS模型建立问题具有重要意义。
  • 相关研究
    与本论文相关的研究包括:1.《Investigation of Cross-Lingual Transfer Learning for Low-Resource Speech Synthesis》;2.《Multi-Speaker Adaptive Text-to-Speech Generation》;3.《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论