Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech

简介

人们改变自己的语调，通常会伴随着非语言声音（NVs），例如笑声和哭声，以传达丰富的情感。然而，大多数文本转语音（TTS）系统缺乏生成带有丰富情感（包括NVs）语音的能力。本文介绍了EmoCtrl-TTS，一种情感可控的零样本TTS，可以为任何发言人生成高度情感化的带有NVs的语音。EmoCtrl-TTS利用唤起和价值值以及笑声嵌入来调节基于流匹配的零样本TTS。为了实现高质量的情感语音生成，EmoCtrl-TTS使用了超过27,000小时的基于伪标记的表达数据进行训练。全面的评估表明，EmoCtrl-TTS在模仿语音到语音翻译场景中音频提示的情感方面表现出色。我们还展示了EmoCtrl-TTS可以捕捉情感变化，表达强烈的情感，并在零样本TTS中生成各种NVs。请访问https://aka.ms/emoctrl-tts以获取演示样本。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

EmoCtrl-TTS试图解决TTS系统无法生成富有情感的语音的问题，包括非语言声音（NVs）。
关键思路

EmoCtrl-TTS是一种基于情感控制的零样本TTS系统，利用唤起和价值值以及笑声嵌入来调节基于流匹配的TTS。它还使用了超过27,000小时的表达数据进行训练，并基于伪标签进行筛选。
其它亮点

论文展示了EmoCtrl-TTS在模仿语音到语音翻译情境中音频提示的情感方面的优异表现，以及在零样本TTS中捕捉情感变化、表达强烈情感和生成各种NVs方面的能力。论文提供了演示样本。
相关研究

在这个领域中，最近的相关研究包括使用GAN的情感TTS和基于样式转移的情感TTS。

Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech

提问交流

提问交流