- 简介我们提出了VoiceShop,这是一个新颖的语音转语音框架,可以在单次前向传递中修改语音的多个属性,例如年龄、性别、口音和语音风格,同时保留输入说话人的音色。以前的作品受到限制,只能单独编辑这些属性,并且存在以下问题:转换效果的幅度较弱,无法对分布外的说话人进行零样本处理,或合成输出会出现不良的音色泄漏。我们的工作针对每个问题提出了解决方案,在一个简单的模块化框架中,该框架基于一个条件扩散骨干模型,具有可选的基于归一化流和序列到序列说话人属性编辑模块,这些组件可以在推理过程中组合或删除,以满足各种任务的需求,而无需进行额外的模型微调。音频样本可在\url{https://voiceshopai.github.io}上找到。
-
- 图表
- 解决问题论文旨在提出一种语音转换框架,可以同时修改多个语音属性,例如年龄、性别、口音和语音风格,而不会影响输入说话者的音色。
- 关键思路论文提出了一种基于条件扩散的模块化框架,其中包含可选的基于正则化流和序列到序列说话人属性编辑模块,这些组件可以在推理过程中组合或移除以满足各种任务,而无需进行额外的模型微调。
- 其它亮点论文的亮点包括:1. 可以同时修改多个语音属性,而不会影响输入说话者的音色;2. 可以处理不同说话人的情况;3. 模块化框架易于使用和扩展;4. 在多个数据集上进行了实验,并提供了开源代码和音频样本。
- 最近的相关研究包括:1. StarGAN-VC;2. AutoVC;3. MelGAN-VC。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流