MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis

向作者提问

NEW

简介

情感语音合成（E-TTS）近年来受到了广泛关注，因为它有潜力增强人机交互。然而，当前的E-TTS方法通常难以捕捉人类情感的复杂性，主要依赖于过于简化的情感标签或单一模态输入。为了解决这些限制，我们提出了多模态情感语音合成系统（MM-TTS），这是一个统一的框架，利用多种模态的情感线索生成高度表现力和情感共鸣的语音。MM-TTS包括两个关键组成部分：（1）情感提示对齐模块（EP-Align），它采用对比学习来对齐文本、音频和视觉模态的情感特征，确保多模态信息的一致融合；（2）情感嵌入引导的TTS（EMI-TTS），它将对齐的情感嵌入与最先进的TTS模型集成，合成准确反映预期情感的语音。对各种数据集的广泛评估表明，与传统的E-TTS模型相比，MM-TTS具有更优越的性能。客观指标，包括单词错误率（WER）和字符错误率（CER），在ESD数据集上显示出显著的改进，MM-TTS分别获得了7.35％和3.07％的分数。主观评估进一步验证了MM-TTS生成的语音具有与人类语音相当的情感保真度和自然度。我们的代码和预训练模型可在https://anonymous.4open.science/r/MMTTS-D214上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决当前情感文本转语音技术中存在的问题，即无法捕捉人类情感的复杂性，主要依赖于过于简化的情感标签或单一模态输入。作者提出了一种多模态情感文本转语音系统，旨在通过多种模态的情感线索生成高度表达和情感共鸣的语音。
关键思路

本文提出的多模态情感文本转语音系统采用对比学习来对齐文本、音频和视觉模态中的情感特征，确保多模态信息的一致融合；并将对齐的情感嵌入与先进的TTS模型相结合，以合成准确反映预期情感的语音。
其它亮点

本文的亮点包括提出了一种多模态情感文本转语音系统，采用对比学习来对齐不同模态的情感特征，并将其与TTS模型相结合；在多个数据集上进行了广泛的评估，证明了该系统相对于传统的情感文本转语音模型的卓越性能；主观评估进一步验证了该系统生成的语音与人类语音具有相似的情感保真度和自然度。作者还公开了代码和预训练模型。
相关研究

最近的相关研究包括：1. A Multimodal Approach to Emotion Recognition using Audio and Text (IEEE Transactions on Affective Computing, 2021)；2. Emotion Detection using Multimodal Features: A Review (Expert Systems with Applications, 2020)；3. A Survey of Multimodal Sentiment Analysis (Information Fusion, 2019)。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问