Converting Anyone's Voice: End-to-End Expressive Voice Conversion with a Conditional Diffusion Model

2024年05月02日
  • 简介
    本文提出了一种全新的、基于条件去噪扩散概率模型(DDPM)的完全端到端的表达性语音转换(VC)框架,用于联合转换说话人身份和情感风格,以实现情感说话人的身份转换。在表达性VC中,针对任意说话人的情感风格建模尚未得到广泛探索。以往的方法依赖于语音合成器进行语音重建,这使得语音质量严重依赖于语音合成器的性能。表达性VC的主要挑战在于情感韵律建模。为了解决这些挑战,本文利用自监督语音模型派生的语音单元作为内容条件,并结合从语音情感识别和说话人验证系统中提取的深度特征来建模情感风格和说话人身份。客观和主观评估表明了我们的框架的有效性。代码和样本已公开发布。
  • 图表
  • 解决问题
    本论文旨在解决表达式语音转换中情感语调建模的挑战,提出了一个全面的端到端表达式语音转换框架。
  • 关键思路
    本文提出了一种基于条件去噪扩散概率模型(DDPM)的完全端到端的表达式语音转换框架,利用自监督语音模型派生的语音单元作为内容调节,以及从语音情感识别和说话人验证系统提取的深度特征来建模情感风格和说话人身份。
  • 其它亮点
    论文使用了自监督语音模型派生的语音单元作为内容调节,提出了一种全面的端到端表达式语音转换框架。实验结果表明,该框架具有很好的效果。此外,论文还公开了代码和样本。
  • 相关研究
    最近在这个领域中,也有其他相关研究。例如:《A Review on Emotional Speech Synthesis》、《Emotional Speech Conversion Using Cycle-Consistent Adversarial Networks with a Classification Loss》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论