Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech

2024年07月17日
  • 简介
    人们改变自己的语调,通常会伴随着非语言声音(NVs),例如笑声和哭声,以传达丰富的情感。然而,大多数文本转语音(TTS)系统缺乏生成带有丰富情感(包括NVs)语音的能力。本文介绍了EmoCtrl-TTS,一种情感可控的零样本TTS,可以为任何发言人生成高度情感化的带有NVs的语音。EmoCtrl-TTS利用唤起和价值值以及笑声嵌入来调节基于流匹配的零样本TTS。为了实现高质量的情感语音生成,EmoCtrl-TTS使用了超过27,000小时的基于伪标记的表达数据进行训练。全面的评估表明,EmoCtrl-TTS在模仿语音到语音翻译场景中音频提示的情感方面表现出色。我们还展示了EmoCtrl-TTS可以捕捉情感变化,表达强烈的情感,并在零样本TTS中生成各种NVs。请访问https://aka.ms/emoctrl-tts以获取演示样本。
  • 作者讲解
  • 图表
  • 解决问题
    EmoCtrl-TTS试图解决TTS系统无法生成富有情感的语音的问题,包括非语言声音(NVs)。
  • 关键思路
    EmoCtrl-TTS是一种基于情感控制的零样本TTS系统,利用唤起和价值值以及笑声嵌入来调节基于流匹配的TTS。它还使用了超过27,000小时的表达数据进行训练,并基于伪标签进行筛选。
  • 其它亮点
    论文展示了EmoCtrl-TTS在模仿语音到语音翻译情境中音频提示的情感方面的优异表现,以及在零样本TTS中捕捉情感变化、表达强烈情感和生成各种NVs方面的能力。论文提供了演示样本。
  • 相关研究
    在这个领域中,最近的相关研究包括使用GAN的情感TTS和基于样式转移的情感TTS。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问