- 简介本文介绍了VALL-E 2,这是神经编解码器语言模型中的最新进展,标志着零样本文本到语音合成(TTS)实现了人类水平的里程碑。新版本基于其前身VALL-E,引入了两个重要的增强功能:重复感知采样通过考虑解码历史中的标记重复来改进原始核采样过程。它不仅稳定了解码,而且还规避了无限循环问题。分组编码建模将编解码器代码组织成组,以有效缩短序列长度,这不仅提高了推理速度,而且解决了长序列建模的挑战。我们在LibriSpeech和VCTK数据集上的实验表明,VALL-E 2在语音鲁棒性、自然度和说话者相似度方面超越了以前的系统。这是第一个在这些基准测试中达到人类水平的系统。此外,VALL-E 2始终合成高质量的语音,即使对于传统上由于复杂性或重复短语而具有挑战性的句子也是如此。这项工作的优点可以为生成失语症患者或肌萎缩侧索硬化症患者的语音等有价值的努力做出贡献。请访问https://aka.ms/valle2以查看VALL-E 2的演示。
- 图表
- 解决问题VALL-E 2旨在通过零样本文本到语音合成实现与人类的语音自然度和相似度达到同等水平。
- 关键思路VALL-E 2通过引入Repetition Aware Sampling和Grouped Code Modeling两种新技术来提高语音合成的自然度和稳定性。
- 其它亮点VALL-E 2在LibriSpeech和VCTK数据集上的实验结果表明,它在语音韧性、自然度和说话人相似度方面均优于之前的系统,并且是第一个在这些基准测试中达到与人类同等水平的系统。论文还提出了VALL-E 2在生成语音方面的潜在应用。
- 与VALL-E 2相关的其他研究包括TTS领域的其他神经编解码器模型,如Tacotron 2和WaveNet。
沙发等你来抢
去评论
评论
沙发等你来抢