SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

2024年07月10日
  • 简介
    歌声转换(SVC)旨在在保留原始内容的同时将某个音乐作品中歌手的声音转换为另一个歌手的声音。我们提出了一种基于特征解缠的端到端模型,命名为SaMoye,以实现零样本多对多歌声转换。SaMoye将歌声的特征分解为内容特征、音色特征和音高特征。内容特征使用基于GPT的模型进行增强,以与歌词的音素进行交叉预测。SaMoye可以通过用目标歌手的音色特征替换来生成具有转换声音的音乐。我们还建立了一个空前的大规模数据集,以保证零样本性能。该数据集包含至少10,000名歌手的1500k个纯唱片。
  • 作者讲解
  • 图表
  • 解决问题
    SaMoye试图实现零样本多对多的歌声转换,将一个歌手的声音转换为另一个歌手的声音,同时保留原始内容。这是一个新问题。
  • 关键思路
    SaMoye采用端到端的特征解缠模型,将歌声的特征分解为内容特征、音色特征和音高特征,通过GPT模型增强内容特征,实现与歌词音素的交叉预测,并将音色特征替换为目标歌手的特征,从而实现歌声转换。相比当前领域的研究,SaMoye的关键思路是特征解缠和GPT模型的应用。
  • 其它亮点
    论文建立了一个规模空前的数据集,包含1500k个纯唱声音频片段,涵盖至少10000位歌手。实验结果表明,SaMoye在零样本情况下实现了多对多的歌声转换,并且在主观和客观评价方面都取得了较好的结果。论文还提供了开源代码。
  • 相关研究
    近期的相关研究包括:1. DeepSinger: End-to-End Singing Voice Conversion with a Transformer Model; 2. StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks; 3. CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问