Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations

简介

零样本多说话人语音合成旨在在没有任何微调的情况下，使用所选择的目标说话人的声音合成语音。然而，现有的方法在适应新的说话人或不同领域的设置方面存在局限性，主要是由于说话人分离和内容泄漏不足。为了克服这些限制，我们提出了一种创新的否定特征学习范式，该范式将解耦的说话人属性建模为与完整音频表示的偏差，利用减法运算。通过从说话人表示中消除多余的内容信息，我们的否定方案不仅减轻了内容泄漏，从而提高了合成的鲁棒性，而且还提高了说话人的保真度。此外，为了促进多样化说话人属性的学习，我们利用多流变压器，保留多个假设并引发类似于集成学习的训练范式。为了统一这些假设并实现最终的说话人表示，我们采用注意力池化。最后，鉴于在所需的语音中生成目标文本话语的必要性，我们采用自适应层归一化，将先前生成的说话人表示与目标文本表示有效地融合，而不是仅将文本和音频模态连接起来。广泛的实验和验证证实了我们提出的方法在保留和利用与替代基线模型相比的特定于说话人的属性方面的功效。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决零样本多说话人语音合成中的说话人区分和内容泄漏问题，提出了一种创新的否定特征学习范式，同时使用多流Transformer和自适应层标准化来提高合成质量。
关键思路

本论文的关键思路是使用否定特征学习范式来建模分离说话人属性和内容信息，并使用多流Transformer和注意力池化来提高合成质量。
其它亮点

论文使用了自适应层标准化来融合说话人表示和目标文本表示，实现了更好的合成效果。实验结果表明，该方法在保留说话人特征方面表现出色，并且在多说话人语音合成方面取得了最先进的结果。
相关研究

在相关研究中，最近的一些论文包括："Zero-shot Multi-Speaker Text-To-Speech with State-of-the-art Neural Speaker Embeddings"，"Unsupervised Neural Voice Cloning with Data-Efficient Fine-Tuning"等。

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations

提问交流

提问交流