- 简介语音转换旨在修改源发言者的声音以类似于目标发言者的声音,同时保留原始的语音内容。尽管语音转换在近年来取得了显著进展,但多语言语音转换(包括单语和跨语言场景)还没有得到广泛的研究。它面临两个主要挑战:1)语言之间韵律和发音习惯的相当大的可变性;2)来自同一发言者的成对多语言数据的稀缺性。在本文中,我们提出了MulliVC,一种新颖的语音转换系统,它只转换音色并保留原始内容和源语言韵律,而无需多语言配对数据。具体而言,MulliVC的每个训练步骤包含三个子步骤:第一步使用单语言语音数据训练模型;然后,第二步和第三步从回译中获得灵感,构建一个循环过程,以在没有来自同一发言者的多语言数据的情况下解开音色和其他信息(内容、韵律和其他语言相关信息)。客观和主观结果表明,MulliVC在单语和跨语言环境下均明显优于其他方法,证明了该系统的有效性和采用循环一致性的三步方法的可行性。音频样本可以在我们的演示页面(mullivc.github.io)上找到。
- 图表
- 解决问题本论文旨在解决多语言语音转换中缺乏配对数据的问题,提出了一种新的语音转换系统MulliVC,该系统只转换音色而保留原始内容和源语言韵律。
- 关键思路MulliVC的关键思路是使用循环一致性的三步方法来解耦音色和其他信息,第一步训练单语音数据,第二步和第三步构建循环过程以在没有多语言配对数据的情况下分离音色和其他信息。相比之前的研究,该论文的思路具有新意。
- 其它亮点论文的实验结果表明,MulliVC在单语言和跨语言情境下均显著优于其他方法,证明了该系统的有效性和三步循环一致性方法的可行性。论文提供了可用于演示的音频样本,并开源了代码。
- 最近的相关研究包括多语言语音转换和循环一致性生成模型等。例如,题为“Cross-Lingual Voice Conversion Using Phonetic Posteriorgrams and Adversarial Learning”的论文提出了使用拼音后验概率和对抗学习的跨语言语音转换方法。
沙发等你来抢
去评论
评论
沙发等你来抢