- 简介笑声是人类语言中最具表现力和自然的方面之一,传达情感、社交线索和幽默。然而,大多数文本转语音(TTS)系统缺乏产生逼真和适当笑声的能力,限制了它们的应用和用户体验。虽然之前已经有过生成自然笑声的工作,但它们在控制要生成的笑声的时机和多样性方面不够出色。在这项工作中,我们提出了ELaTE,一种零样本TTS,可以基于短音频提示产生任何说话者的自然笑声,同时精确控制笑声的时机和表情。具体而言,ELaTE对音频提示进行处理以模拟声音特征,对文本提示进行处理以指示生成语音的内容,对输入进行处理以控制笑声表情,这可以是笑声的开始和结束时间,也可以是包含要模仿的笑声的附加音频提示。我们基于基于条件流匹配的零样本TTS的基础上开发了我们的模型,并使用来自笑声检测器的帧级表示作为额外的条件进行微调。通过一个简单的方案,将小规模的笑声条件数据与大规模的预训练数据混合,我们证明了预训练的零样本TTS模型可以轻松地进行微调,以生成具有精确可控性的自然笑声,而不会失去预训练零样本TTS模型的任何质量。通过评估,我们展示了ELaTE可以生成具有显着更高质量和可控性的笑声语音,与传统模型相比。请访问https://aka.ms/elate/获取演示样本。
- 图表
- 解决问题ELaTE试图解决TTS系统无法生成逼真的笑声的问题,以提高用户体验。
- 关键思路ELaTE是一种零样本TTS,可以根据短音频提示生成任何说话者的自然笑声,并精确控制笑声的时间和表情。
- 其它亮点ELaTE使用条件流匹配的零样本TTS作为基础,并使用笑声检测器的帧级表示进行微调。通过混合小规模的笑声条件数据和大规模的预训练数据,ELaTE可以在不损失零样本TTS模型质量的情况下轻松微调,生成具有显著更高质量和可控性的笑声语音。
- 最近的相关研究包括基于深度学习的TTS系统和语音情感合成。
沙发等你来抢
去评论
评论
沙发等你来抢