VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

简介

我们介绍了VoiceCraft，这是一个令牌填充的神经编解码语言模型，它在有声读物、互联网视频和播客的语音编辑和零样本文本转语音（TTS）方面实现了最先进的性能。VoiceCraft采用Transformer解码器架构，并引入令牌重新排列过程，结合因果掩蔽和延迟堆叠以实现在现有序列中生成。在语音编辑任务中，VoiceCraft产生的编辑语音在自然度方面与未编辑的录音几乎无法区分，经人类评估。对于零样本TTS，我们的模型优于之前的SotA模型，包括VALLE和流行的商业模型XTTS-v2。关键是，这些模型是在具有多种口音、语音风格、录制条件、背景噪音和音乐的具有挑战性和现实性的数据集上进行评估的，我们的模型与其他模型和真实录音相比表现始终如一。特别是，在语音编辑评估中，我们介绍了一个高质量、具有挑战性和现实性的数据集，名为RealEdit。我们鼓励读者在https://jasonppy.github.io/VoiceCraft_web上听取演示。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

VoiceCraft试图解决语音编辑和零样本文本转语音的问题，即如何在现有序列中生成新的语音。
关键思路

VoiceCraft采用了Transformer解码器架构，并引入了一种令牌重排过程，将因果掩码和延迟堆叠相结合，以实现现有序列内的生成。
其它亮点

VoiceCraft在语音编辑和零样本TTS任务上均取得了最先进的性能，并使用多样化的数据集进行了评估。论文还介绍了一个高质量、具有挑战性和现实性的数据集RealEdit，并提供了在线演示和开源代码。
相关研究

近期的相关研究包括VALLE和XTTS-v2等语音编辑和TTS模型，以及Transformer解码器架构的改进。

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

提问交流

提问交流