- 简介本文介绍了VALL-E 2,这是神经编解码器语言模型中的最新进展,标志着零样本文本转语音合成(TTS)实现了人类的水平。基于其前身VALL-E,新的迭代版本引入了两个重要的增强功能:重复感知采样通过考虑解码历史中的标记重复来优化原始核采样过程。它不仅稳定了解码,而且避免了无限循环问题。分组编码建模将编解码器代码组织成组,以有效缩短序列长度,不仅提高了推理速度,而且解决了长序列建模的挑战。我们在LibriSpeech和VCTK数据集上的实验表明,VALL-E 2在语音鲁棒性、自然度和说话人相似度方面超过了以前的系统。它是第一个在这些基准测试中达到人类水平的系统。此外,VALL-E 2在合成传统上由于复杂性或重复短语而具有挑战性的句子时,始终能够合成高质量的语音。这项工作的优势可以为生成失语症患者或肌萎缩侧索硬化症患者的语音等有价值的努力做出贡献。VALL-E 2的演示将发布在https://aka.ms/valle2上。
- 图表
- 解决问题VALL-E 2试图实现零样本文本到语音合成,并达到人类水平。此前的系统在语音的鲁棒性、自然度和说话人相似度方面存在问题。
- 关键思路VALL-E 2引入了两个重要的改进,即重复感知采样和分组编解码器建模。前者通过考虑解码历史中的令牌重复来优化核采样过程,从而稳定解码并解决无限循环问题。后者将编解码器代码组织成组,以有效缩短序列长度,提高推理速度,并解决长序列建模的挑战。
- 其它亮点VALL-E 2是第一个在LibriSpeech和VCTK数据集上达到人类水平的系统。它能够合成高质量的语音,即使是传统上由于复杂性或重复短语而具有挑战性的句子。此外,该论文的亮点还包括其实验设计和开源代码。
- 最近的相关研究包括Tacotron 2和Transformer TTS。
沙发等你来抢
去评论
评论
沙发等你来抢