VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis

2024年03月01日
  • 简介
    在人工智能领域,实现人类语音的微妙和准确的仿真一直是一个长期的目标。虽然近年来取得了重大进展,但语音合成模型的主流仍然依赖于受监督的说话人建模和明确的参考语音。然而,人类语音有许多方面,如情感、语调和说话风格,很难获得准确的标签。本文提出了VoxGenesis,一种新颖的无监督语音合成框架,可以发现一个潜在的说话人流形和有意义的声音编辑方向,而无需监督。VoxGenesis的概念很简单。它不是将语音特征确定地映射到波形上,而是将高斯分布转换为由语义标记调整和对齐的语音分布。这迫使模型学习与语义内容分离的说话人分布。在推理过程中,从高斯分布中进行采样可以创建具有不同特征的新说话人。更重要的是,对潜在空间的探索揭示了与特定说话人特征相关的人类可解释方向,如性别属性、音高、音调和情感,允许通过沿着这些确定的方向操纵潜在代码进行语音编辑。我们进行了大量实验,使用主观和客观指标评估了所提出的VoxGenesis,发现它产生的说话人更加多样化和逼真,并具有不同的特征,比以前的方法更好。我们还展示了潜在空间操作产生的一致且人可识别的效果,这在以前的方法中是不可能的。VoxGenesis的音频样本可以在以下网址找到:\url{https://bit.ly/VoxGenesis}。
  • 图表
  • 解决问题
    论文旨在提出一种无监督的语音合成框架,可以发现潜在的说话人流形和有意义的声音编辑方向,以实现更丰富和真实的说话人声音合成。
  • 关键思路
    VoxGenesis使用高斯分布转换为语音分布,通过语义标记进行条件和对齐,强制模型学习与语义内容分离的说话人分布,并探索潜在空间,发现与特定说话人特征相关的人类可解释方向,从而实现声音编辑。
  • 其它亮点
    论文使用了主观和客观指标进行了广泛的实验评估,发现相较于之前的方法,VoxGenesis产生了更多样化和真实的具有不同特征的说话人声音,潜在空间的操作产生了一致且人可识别的效果,这是之前的方法所无法实现的。论文还提供了开源代码和音频样本。
  • 相关研究
    最近的相关研究包括:1. TTS模型中的语音合成流形学习;2. 无监督的声音生成模型;3. 语音生成中的潜在空间操作。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论