- 简介基于扩散的歌声转换模型相比传统方法表现更好。然而,在跨领域的歌声转换场景中,源声音域和目标声音域之间的音高存在显著差异,模型往往会生成带有嘶哑声的音频,从而对实现高质量的声音输出构成挑战。因此,在本文中,我们提出了一种自监督音高增强的歌声转换方法(SPA-SVC),它可以在不需要额外数据或增加模型参数的情况下提高SVC任务的语音质量。我们创新地将循环音高变换训练策略和结构相似性指数(SSIM)损失引入到我们的SVC模型中,有效提高了其性能。在公共歌唱数据集M4Singer上的实验结果表明,我们提出的方法显著提高了模型在一般SVC场景和特别是跨领域SVC场景中的性能。
- 图表
- 解决问题本论文旨在解决跨域歌声转换中音高差异导致的音质问题,提出了一种自监督音高增强方法。
- 关键思路该方法通过循环音高转换训练策略和结构相似性指数(SSIM)损失,来增强SVC模型在跨域场景下的性能,而不需要额外的数据或增加模型参数。
- 其它亮点论文在公共歌唱数据集M4Singer上进行了实验,结果表明该方法显著提高了模型的性能,尤其是在跨域SVC场景下。值得注意的是,该方法不需要额外的数据或增加模型参数。
- 最近的相关研究包括:1.《Singing Voice Conversion Using Variational Autoencoder With a Pitch-Dependent Prior Distribution》2.《Cycle-Consistent Adversarial Networks for Singing Voice Conversion》等。
沙发等你来抢
去评论
评论
沙发等你来抢