VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

2024年03月25日
  • 简介
    我们介绍了VoiceCraft,这是一个令牌填充的神经编解码语言模型,它在有声读物、互联网视频和播客的语音编辑和零样本文本转语音(TTS)方面实现了最先进的性能。VoiceCraft采用Transformer解码器架构,并引入令牌重新排列过程,结合因果掩蔽和延迟堆叠以实现在现有序列中生成。在语音编辑任务中,VoiceCraft产生的编辑语音在自然度方面与未编辑的录音几乎无法区分,经人类评估。对于零样本TTS,我们的模型优于之前的SotA模型,包括VALLE和流行的商业模型XTTS-v2。关键是,这些模型是在具有多种口音、语音风格、录制条件、背景噪音和音乐的具有挑战性和现实性的数据集上进行评估的,我们的模型与其他模型和真实录音相比表现始终如一。特别是,在语音编辑评估中,我们介绍了一个高质量、具有挑战性和现实性的数据集,名为RealEdit。我们鼓励读者在https://jasonppy.github.io/VoiceCraft_web上听取演示。
  • 图表
  • 解决问题
    VoiceCraft试图解决语音编辑和零样本文本转语音的问题,即如何在现有序列中生成新的语音。
  • 关键思路
    VoiceCraft采用了Transformer解码器架构,并引入了一种令牌重排过程,将因果掩码和延迟堆叠相结合,以实现现有序列内的生成。
  • 其它亮点
    VoiceCraft在语音编辑和零样本TTS任务上均取得了最先进的性能,并使用多样化的数据集进行了评估。论文还介绍了一个高质量、具有挑战性和现实性的数据集RealEdit,并提供了在线演示和开源代码。
  • 相关研究
    近期的相关研究包括VALLE和XTTS-v2等语音编辑和TTS模型,以及Transformer解码器架构的改进。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问