我们介绍了OpenVoice,这是一种多功能的语音克隆方法,只需一个参考说话者的短音频剪辑即可复制他们的声音,并在多种语言中生成语音。OpenVoice在解决以下领域的开放性挑战方面代表了重大进展:1)灵活的语音风格控制。OpenVoice可以对语音风格进行细粒度控制,包括情感、口音、节奏、停顿和语调,除了复制参考说话者的音色外。这些语音风格不是直接从参考说话者的风格中复制并受到限制的。以前的方法缺乏在克隆后灵活操纵语音风格的能力。2)零样本跨语言语音克隆。OpenVoice实现了零样本跨语言语音克隆,适用于未包含在大规模说话者训练集中的语言。与以往的方法不同,这些方法通常需要为所有语言提供大规模说话者多语言(MSML)数据集,而OpenVoice可以在没有任何大规模说话者训练数据的情况下将声音克隆到新语言中。OpenVoice的计算效率也很高,成本比商业API低几十倍,而且性能更差。为了促进该领域的进一步研究,我们已经公开了源代码和训练模型。我们还在演示网站上提供了定性结果。在其公开发布之前,我们的OpenVoice内部版本在2023年5月至10月间被全球用户使用了数千万次,作为MyShell的后端。
提问交流