- 简介本文提出了一种基于隐变量扩散模型的任意歌声转换技术(LDM-SVC),旨在将一位歌手的歌声转换为另一位歌手的歌声,仅需几秒钟的歌唱数据。然而,在转换过程中,音色泄漏的问题是不可避免的:转换后的歌声仍然听起来像原唱。为了解决这个问题,我们提出了一种基于LDM的SVC方法,试图在潜在空间中使用LDM进行SVC。我们使用基于VITS框架的开源So-VITS-SVC项目预训练了一个变分自编码器结构,然后用于LDM训练。此外,我们提出了一种基于无分类器指导的歌手指导训练方法,进一步抑制原唱的音色。实验结果表明,所提出的方法在音色相似性的主观和客观评估方面均优于以前的工作。
- 图表
- 解决问题本论文旨在解决任意歌声转换中的音色泄漏问题,即转换后的歌声仍然听起来像原唱者的声音。这是否是一个新问题需要进一步探究。
- 关键思路本论文提出了一种基于潜空间扩散模型的任意歌声转换方法(LDM-SVC),通过使用LDM在潜空间中进行歌声转换,以减少音色泄漏。同时,提出了一种基于无分类器的指导训练方法,以进一步抑制原唱者的音色。
- 其它亮点论文使用了开源的So-VITS-SVC项目基于VITS框架预训练了变分自编码器结构,并用于LDM训练。实验结果表明,与以前的工作相比,该方法在主观和客观的音色相似性评估上具有优越性。值得关注的是,本论文提出的方法在解决音色泄漏问题方面具有较大的创新性。
- 近期在该领域的相关研究包括:1. StarGAN声音转换;2. 基于CycleGAN的歌声转换;3. 基于深度学习的歌声转换方法。
沙发等你来抢
去评论
评论
沙发等你来抢