- 简介本文提出了一种基于韵律的情感语音转换(EVC)方法,称为韵律感知变声器(PAVITS),旨在实现EVC的两个主要目标:高内容自然度和高情感自然度,这对于满足人类感知需求至关重要。为了提高转换音频的内容自然度,我们开发了一种端到端的EVC架构,受到VITS高音质的启发。通过无缝集成声学转换器和声码器,我们有效地解决了现有EVC模型中普遍存在的情感韵律训练和运行时转换不匹配的常见问题。为了进一步增强情感自然度,我们引入了情感描述符来模拟不同语音情感的微妙韵律变化。此外,我们提出了一个韵律预测器,它可以根据提供的情感标签从文本中预测韵律特征。值得注意的是,我们引入了一个韵律对齐损失,以建立两种不同模态的潜在韵律特征之间的连接,确保有效的训练。实验结果表明,PAVITS的性能优于现有的EVC方法。语音样本可在https://jeremychee4.github.io/pavits4EVC/上获得。
-
- 图表
- 解决问题本论文旨在提出一种基于语调的情感语音转换(EVC)方法,旨在实现高内容自然性和高情感自然性两个主要目标,以满足人类感知需求。
- 关键思路论文提出了Prosody-aware VITS(PAVITS)的概念,通过无缝集成声学转换器和声码器的端到端EVC架构,有效解决了现有EVC模型中普遍存在的情感语调训练和运行时转换不匹配的问题。此外,引入情感描述符来建模不同语音情感的微妙语调变化,并提出了一种基于提供的情感标签从文本中预测语调特征的语调预测器。值得注意的是,引入语调对齐损失来建立两种不同模态的潜在语调特征之间的联系,确保有效的训练。
- 其它亮点论文的实验结果表明,PAVITS的性能优于现有的EVC方法。研究人员提供了Speech Samples,并开放了代码,这些都是值得关注的亮点。这项工作可以为情感合成和人机交互领域的相关研究提供参考。
- 最近的相关研究包括:1. Emotional Voice Conversion Using Variational Autoencoder with a Gaussian Mixture Prior(通过具有高斯混合先验的变分自动编码器进行情感语音转换);2. Neural Voice Puppetry: Audio-driven Facial Reenactment(神经语音傀儡术:基于音频驱动的面部再现)。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流