OpenVoice: Versatile Instant Voice Cloning

向作者提问

NEW

简介

我们介绍了OpenVoice，这是一种多功能的语音克隆方法，只需一个参考说话者的短音频剪辑即可复制他们的声音，并在多种语言中生成语音。OpenVoice在解决以下领域的开放性挑战方面代表了重大进展：1）灵活的语音风格控制。OpenVoice可以对语音风格进行细粒度控制，包括情感、口音、节奏、停顿和语调，除了复制参考说话者的音色外。这些语音风格不是直接从参考说话者的风格中复制并受到限制的。以前的方法缺乏在克隆后灵活操纵语音风格的能力。2）零样本跨语言语音克隆。OpenVoice实现了零样本跨语言语音克隆，适用于未包含在大规模说话者训练集中的语言。与以往的方法不同，这些方法通常需要为所有语言提供大规模说话者多语言（MSML）数据集，而OpenVoice可以在没有任何大规模说话者训练数据的情况下将声音克隆到新语言中。OpenVoice的计算效率也很高，成本比商业API低几十倍，而且性能更差。为了促进该领域的进一步研究，我们已经公开了源代码和训练模型。我们还在演示网站上提供了定性结果。在其公开发布之前，我们的OpenVoice内部版本在2023年5月至10月间被全球用户使用了数千万次，作为MyShell的后端。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文介绍了OpenVoice，一个多语言语音克隆方法，旨在解决灵活的语音风格控制和零样本跨语言语音克隆等问题。
关键思路

OpenVoice通过仅需要参考讲话者的短音频片段来复制其语音并生成多种语言的语音，实现了对语音风格的精细控制，包括情感、口音、节奏、停顿和语调等。与以往的方法不同的是，OpenVoice能够在克隆后灵活地操纵语音风格，而不是直接复制参考讲话者的风格。OpenVoice还能够在没有大规模训练数据的情况下实现零样本跨语言语音克隆。
其它亮点

论文提供了开源代码和训练模型，并在演示网站上提供了定性结果。OpenVoice的计算效率高，成本比商业API低得多。在2023年5月至10月期间，OpenVoice的内部版本已经被全球数百万用户使用了数百万次，作为MyShell的后端。值得深入研究的工作包括如何进一步提高语音克隆的质量和效率。
相关研究

最近的相关研究包括：1）语音克隆的其他方法，如CycleGAN-VC、StarGAN-VC和AutoVC等；2）零样本跨语言语音转换的其他方法，如X-vector-based方法和基于自监督学习的方法。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问