- 简介尽管最近在文本提示下生成语音方面取得了进展,使得可以控制语音风格,但是合成语音中的声音属性仍然是难以控制的。本文介绍了一项新颖的任务:利用文本提示进行声音属性编辑,旨在根据文本提示中描述的动作相对地修改声音属性。为了解决这个任务,本文提出了一种端到端的生成模型——VoxEditor。在VoxEditor中,为了解决文本提示不足的问题,设计了一个残差记忆(ResMem)块,它有效地将声音属性和这些描述符映射到共享特征空间中。此外,ResMem块还通过声音属性度量预测(VADP)块增强,以将声音属性与相应的描述符对齐,以解决由于声音属性的非定量描述而引起的文本提示不精确的问题。我们还建立了开源的VCTK-RVA数据集,该数据集在手动注释不同发言人之间的语音特征差异方面处于领先地位。广泛的实验证明了我们提出的方法在客观和主观指标方面的有效性和普适性。数据集和音频样本可在网站上获取。
-
- 图表
- 解决问题本文提出了一个新的任务:使用文本提示进行声音属性编辑,目的是根据文本提示中描述的动作相对修改声音属性。这个任务的主要挑战是控制合成语音中的声音属性,这是一个新问题。
- 关键思路本文提出了VoxEditor,一个端到端的生成模型,用于解决声音属性编辑任务。VoxEditor使用Residual Memory(ResMem)块将声音属性和描述符映射到共享特征空间中。此外,ResMem块还使用声音属性度量预测(VADP)块来对齐声音属性和相应的描述符,解决了文本提示中声音属性描述的不精确性问题。
- 其它亮点本文建立了开源的VCTK-RVA数据集,详细说明了不同说话者之间声音特征差异的手动注释。实验结果表明,VoxEditor方法在客观和主观指标上都具有有效性和泛化性。此外,本文还探讨了一些未来的研究方向。
- 最近在这个领域中,已经有一些相关的研究。例如,“Controllable Text-to-Speech Synthesis using Adversarial Autoencoders”和“Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流