- 简介任何到任何的歌声转换都面临一个重大挑战,即由于内容和说话者音色之间的解缠不足而导致的“音色泄漏”问题。为了解决这个问题,本研究引入了一种新颖的神经级联歌声转换(NeuCoSVC)框架。NeuCoSVC框架包括自监督学习(SSL)表示提取器、神经和声信号生成器和波形合成器。具体而言,SSL提取器将音频压缩成一系列固定维度的SSL特征序列。和声信号生成器通过利用线性时变(LTV)滤波器产生原始和过滤后的和声信号作为音高信息。最后,音频生成器基于SSL特征、和声信号和响度信息重构音频波形。在推理过程中,系统通过将源SSL特征替换为匹配池中最近的目标音频的对应特征来执行语音转换,其中匹配池包括从目标音频提取的SSL表示,而原始和声信号和响度从源音频中提取并保持不变。由于转换阶段中使用的SSL特征直接来自目标音频,因此所提出的框架有很大潜力解决先前基于解缠的方法引起的“音色泄漏”问题。实验结果证实,与说话者嵌入方法(基于解缠)相比,所提出的系统在跨语言、跨领域和单次SVC的情况下具有更好的性能。
- 图表
- 解决问题本论文试图解决歌唱声音转换中的声音色泄漏问题,提出了一种新的神经级联歌唱声音转换(NeuCoSVC)框架。
- 关键思路该框架包括自监督学习的表示提取器、神经和声信号生成器和波形合成器,采用直接从目标音频提取的SSL特征进行转换,避免了之前基于解缠的方法所引起的声音色泄漏问题。
- 其它亮点实验表明,该系统在一次性歌唱声音转换中的性能优于说话人嵌入方法(基于解缠的方法),并且在跨语言、跨领域评估中都表现出良好的性能。
- 在最近的相关研究中,有一些相关的论文,如《Neural Voice Puppetry: Audio-driven Facial Reenactment》、《A Universal Music Translation Network》等。
沙发等你来抢
去评论
评论
沙发等你来抢