- 简介目前,外语口音转换(FAC)模型的开发采用深度神经网络架构,以及用于语音识别和语音生成的神经网络集合。这些模型的使用受到架构特征的限制,这些特征不允许生成语音的音色进行灵活的更改,并且需要积累上下文,导致生成延迟增加,使这些系统不适用于实时多用户通信场景。我们开发了一种用于实时口音转换和语音克隆的非自回归模型。该模型基于输入的L2重音语音生成具有最小延迟的本地语调L1语音。该模型由提取重音、性别和说话人嵌入、转换语音、生成频谱图和将结果频谱图解码成音频信号的相互连接的模块组成。该模型具有实时保存、克隆和更改说话人声音音色、性别和重音的能力。客观评估的结果表明,该模型提高了语音质量,从而提高了现有ASR系统的识别性能。主观测试的结果表明,所提出的重音和性别编码器提高了生成质量。开发的模型展示了高质量低延迟的口音转换、语音克隆和语音增强能力,使其适用于实时多用户通信场景。
- 图表
- 解决问题本论文旨在开发一种实时多用户通信场景下的外语口音转换(FAC)模型,该模型具有低延迟、语音质量高、可实现声音克隆和语音增强等特点。
- 关键思路该模型采用非自回归模型,通过提取口音、性别和说话人嵌入向量等步骤,将输入的外语口音转化为本地语音,并实现实时声音克隆和语音增强。
- 其它亮点论文使用了多个数据集进行实验验证,证明了该模型的有效性和实用性,并提供了开源代码。该模型还能够灵活改变声音的音色、性别和口音,具有较高的语音质量和低延迟。
- 近年来,外语口音转换领域的研究逐渐增多,如《A Deep Learning Approach to Accent Conversion in Mandarin Speech》、《Accent Conversion Using Phonetic Posteriorgrams》等。
沙发等你来抢
去评论
评论
沙发等你来抢