VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing

简介

我们提出了VoiceShop，这是一个新颖的语音转语音框架，可以在单次前向传递中修改语音的多个属性，例如年龄、性别、口音和语音风格，同时保留输入说话人的音色。以前的作品受到限制，只能单独编辑这些属性，并且存在以下问题：转换效果的幅度较弱，无法对分布外的说话人进行零样本处理，或合成输出会出现不良的音色泄漏。我们的工作针对每个问题提出了解决方案，在一个简单的模块化框架中，该框架基于一个条件扩散骨干模型，具有可选的基于归一化流和序列到序列说话人属性编辑模块，这些组件可以在推理过程中组合或删除，以满足各种任务的需求，而无需进行额外的模型微调。音频样本可在\url{https://voiceshopai.github.io}上找到。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在提出一种语音转换框架，可以同时修改多个语音属性，例如年龄、性别、口音和语音风格，而不会影响输入说话者的音色。
关键思路

论文提出了一种基于条件扩散的模块化框架，其中包含可选的基于正则化流和序列到序列说话人属性编辑模块，这些组件可以在推理过程中组合或移除以满足各种任务，而无需进行额外的模型微调。
其它亮点

论文的亮点包括：1. 可以同时修改多个语音属性，而不会影响输入说话者的音色；2. 可以处理不同说话人的情况；3. 模块化框架易于使用和扩展；4. 在多个数据集上进行了实验，并提供了开源代码和音频样本。
相关研究

最近的相关研究包括：1. StarGAN-VC；2. AutoVC；3. MelGAN-VC。

VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing

提问交流

提问交流