- 简介我们介绍了VoiceCraft,这是一种基于令牌填充的神经编解码语言模型,它在语音编辑和零样本文本转语音(TTS)方面实现了最先进的性能,适用于有声读物、互联网视频和播客。VoiceCraft采用Transformer解码器架构,并引入了令牌重排过程,结合因果掩蔽和延迟堆叠,以实现在现有序列内进行生成。在语音编辑任务中,VoiceCraft生成的编辑后语音在自然度方面几乎与未编辑的录音无法区分,经过人类评估后表现出色。对于零样本TTS,我们的模型优于先前的SotA模型,包括VALLE和流行的商业模型XTTS-v2。关键是,这些模型在具有多种口音、说话风格、录音条件、背景噪音和音乐的具有挑战性和逼真的数据集上进行评估,我们的模型与其他模型和真实录音相比表现一致。特别是,在语音编辑评估中,我们介绍了一个高质量、具有挑战性和逼真的数据集RealEdit。我们鼓励读者在https://jasonppy.github.io/VoiceCraft_web上听取演示。
- 图表
- 解决问题VoiceCraft试图解决语音编辑和零样本文本到语音合成任务的问题。论文中验证了新模型在这些任务上的表现。
- 关键思路VoiceCraft使用Transformer decoder架构和令牌重排过程,结合因果掩码和延迟堆叠,使模型能够在现有序列中生成新序列。这种方法在语音编辑和零样本TTS任务中表现出色。
- 其它亮点论文使用多样化的数据集进行了实验,包括不同口音、说话风格、录音条件和背景噪声和音乐。实验结果表明,VoiceCraft模型的性能优于先前的SotA模型。此外,论文还提供了一个高质量、具有挑战性和现实性的数据集RealEdit,用于语音编辑评估。论文作者还提供了开源代码和演示网站。
- 在这个领域中,最近的相关研究包括VALLE和XTTS-v2等模型。
沙发等你来抢
去评论
评论
沙发等你来抢