- 简介我们介绍了VoiceCraft,这是一个令牌填充的神经编解码语言模型,它在有声读物、互联网视频和播客的语音编辑和零样本文本转语音(TTS)方面实现了最先进的性能。VoiceCraft采用Transformer解码器架构,并引入令牌重新排列过程,结合因果掩蔽和延迟堆叠以实现在现有序列中生成。在语音编辑任务中,VoiceCraft产生的编辑语音在自然度方面与未编辑的录音几乎无法区分,经人类评估。对于零样本TTS,我们的模型优于之前的SotA模型,包括VALLE和流行的商业模型XTTS-v2。关键是,这些模型是在具有多种口音、语音风格、录制条件、背景噪音和音乐的具有挑战性和现实性的数据集上进行评估的,我们的模型与其他模型和真实录音相比表现始终如一。特别是,在语音编辑评估中,我们介绍了一个高质量、具有挑战性和现实性的数据集,名为RealEdit。我们鼓励读者在https://jasonppy.github.io/VoiceCraft_web上听取演示。
- 图表
- 解决问题VoiceCraft试图解决语音编辑和零样本文本转语音的问题,即如何在现有序列中生成新的语音。
- 关键思路VoiceCraft采用了Transformer解码器架构,并引入了一种令牌重排过程,将因果掩码和延迟堆叠相结合,以实现现有序列内的生成。
- 其它亮点VoiceCraft在语音编辑和零样本TTS任务上均取得了最先进的性能,并使用多样化的数据集进行了评估。论文还介绍了一个高质量、具有挑战性和现实性的数据集RealEdit,并提供了在线演示和开源代码。
- 近期的相关研究包括VALLE和XTTS-v2等语音编辑和TTS模型,以及Transformer解码器架构的改进。


提问交流