- 简介通过离散神经音频编解码器的帮助,大型语言模型(LLM)越来越被认为是零样本文本到语音(TTS)合成的一种有前途的方法。然而,基于采样的解码策略虽然使生成具有惊人的多样性,但也带来了鲁棒性问题,例如拼写错误、遗漏和重复。此外,高采样率的音频还给自回归推理过程带来了巨大的计算开销。为了解决这些问题,我们提出了VALL-E R,这是一个强大而高效的零样本TTS系统,建立在VALL-E的基础上。具体而言,我们引入了一个音素单调对齐策略,加强了音素和声学序列之间的联系,通过将声学标记限制为与其关联的音素匹配,从而确保更精确的对齐。此外,我们采用编解码器合并方法,对浅量化层中的离散码进行下采样,从而加速解码速度,同时保持语音输出的高质量。受益于这些策略,VALL-E R可以控制音素,并通过接近基准的词错误率展现了其强大的鲁棒性。此外,它需要更少的自回归步骤,在推理过程中减少了60%的时间。这项研究有潜力应用于有意义的项目,包括为受失语症影响的人创造语音。音频样本可在以下网址获得:https://aka.ms/valler。
- 图表
- 解决问题本文旨在解决零样本文本到语音合成中存在的重复、遗漏和错误等问题,以及高采样率对自回归推理过程的计算开销问题。
- 关键思路本文提出了VALL-E R系统,通过引入音素单调对齐策略来加强音素和声学序列之间的联系,确保声学标记与其相关的音素匹配,从而实现更精确的对齐;同时,采用编解码器合并方法来降低浅量化层中离散编码的采样率,从而加速解码速度,同时保持语音输出的高质量。
- 其它亮点VALL-E R系统通过音素单调对齐策略和编解码器合并方法实现了对音素的可控性,并且接近于真实语音的识别错误率(WER),同时在推理过程中减少了超过60%的时间开销。该研究有望应用于为失语症患者创建语音等有意义的项目。作者提供了音频样本和开源代码。
- 最近的相关研究包括:1. Tacotron 2: Generating Human-like Speech from Text(论文标题);2. Neural Speech Synthesis with Transformer Network(论文标题);3. FastSpeech: Fast, Robust and Controllable Text to Speech(论文标题)。
沙发等你来抢
去评论
评论
沙发等你来抢