- 简介这段摘要介绍了针对领域外(OOD)歌声合成(SVS)的风格转移,旨在生成具有来自参考歌声样本的未见风格(如音色、情感、发音和发声技巧)的高质量歌声。然而,模拟歌声风格的微妙差异是一项艰巨的任务,因为歌声具有非常高的表现力。此外,现有的SVS方法在OOD场景中遇到合成歌声质量下降的问题,因为它们基于这样一个假设:在训练阶段可以识别目标声音属性。为了克服这些挑战,作者提出了StyleSinger,这是第一个用于领域外参考歌声样本的零样式转移的歌声合成模型。StyleSinger采用了两种关键方法以提高效果:1)残差风格适配器(RSA),它采用残差量化模块来捕捉歌声中多样的风格特征,2)不确定性建模层归一化(UMLN),在训练阶段扰动内容表示中的风格属性,从而提高模型的泛化能力。作者的广泛评估无疑证明,StyleSinger在音频质量和与参考歌声样本的相似度方面都优于基线模型。歌声样本可以在https://stylesinger.github.io/找到。
- 图表
- 解决问题StyleSinger试图解决的问题是如何实现零样本风格转移的歌唱声音合成,针对现有SVS方法在OOD场景下合成质量下降的问题,提出了一种新的方法。
- 关键思路StyleSinger的关键思路是使用Residual Style Adaptor(RSA)和Uncertainty Modeling Layer Normalization(UMLN)来捕捉歌唱声音的多样风格特征,并在训练过程中扰动内容表示中的风格属性以提高模型的泛化能力。
- 其它亮点论文通过广泛的评估证明了StyleSinger在音频质量和与参考歌唱声音样本的相似性方面均优于基线模型。论文提供了数据集和开源代码。
- 与该论文相关的研究包括:1)使用GAN进行歌唱声音合成的研究;2)使用自注意力机制进行歌唱声音合成的研究;3)使用深度学习进行音乐生成的研究。
沙发等你来抢
去评论
评论
沙发等你来抢