StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

2023年12月17日
  • 简介
    这段摘要介绍了一种名为StyleSinger的歌声合成模型,它专注于生成高质量的歌声,这些歌声的风格(如音色、情感、发音和发声技巧)来自于未见过的参考歌声样本。然而,模拟歌声风格的微妙差异是一项艰巨的任务,因为歌声具有极高的表现力。此外,现有的歌声合成方法在未见过的情况下往往会遇到合成歌声质量下降的问题,因为它们基于目标声音属性在训练阶段是可辨别的这一假设。为了克服这些挑战,作者提出了StyleSinger,这是一种针对未见过的参考歌声样本进行零样本风格转移的歌声合成模型。StyleSinger采用了两种关键方法以提高效果:1)残差风格适配器(RSA),它采用残差量化模块来捕捉歌声中多样的风格特征;2)不确定性建模层归一化(UMLN),它在训练阶段扰动内容表示中的风格属性,从而提高模型的泛化能力。作者进行了广泛的评估,结果表明StyleSinger在音频质量和与参考歌声样本的相似度方面均优于基线模型。可以在https://stylesinger.github.io/上获取歌声样本。
  • 图表
  • 解决问题
    本论文旨在解决如何在没有见过的样式下生成高质量的歌唱声音的问题。现有的歌唱声音合成方法在面对OOD场景时会遇到合成质量下降的问题,因为它们基于训练阶段能够识别目标声音属性的假设。
  • 关键思路
    本文提出了StyleSinger,这是一种用于零样式转移的歌唱声音合成模型。该模型采用了Residual Style Adaptor(RSA)和Uncertainty Modeling Layer Normalization(UMLN)两种关键方法来提高模型的效果。RSA利用残差量化模块来捕捉歌唱声音中的多样化风格特征,UMLN则在训练阶段扰动内容表示中的风格属性,从而提高模型的泛化能力。
  • 其它亮点
    本文的实验结果表明,StyleSinger在音频质量和与参考歌唱声音样本的相似度方面均优于基线模型。此外,作者提供了歌唱声音样本和代码,便于后续研究。值得深入研究的是,本文提出的方法是否适用于其他语音合成任务,以及如何进一步提高模型的泛化能力。
  • 相关研究
    近期在这个领域的相关研究包括:1)StarGAN-VC2:用于多说话人语音转换的条件生成对抗网络;2)MelGAN-VC:一种基于MelGAN的语音转换方法;3)HiFi-GAN:一种高保真度语音合成方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论