neural concatenative singing voice conversion: rethinking concatenation-based approach for one-shot singing voice conversion

简介

任何到任何的歌声转换都面临一个重大挑战，即由于内容和说话者音色之间的解缠不足而导致的“音色泄漏”问题。为了解决这个问题，本研究引入了一种新颖的神经级联歌声转换（NeuCoSVC）框架。NeuCoSVC框架包括自监督学习（SSL）表示提取器、神经和声信号生成器和波形合成器。具体而言，SSL提取器将音频压缩成一系列固定维度的SSL特征序列。和声信号生成器通过利用线性时变（LTV）滤波器产生原始和过滤后的和声信号作为音高信息。最后，音频生成器基于SSL特征、和声信号和响度信息重构音频波形。在推理过程中，系统通过将源SSL特征替换为匹配池中最近的目标音频的对应特征来执行语音转换，其中匹配池包括从目标音频提取的SSL表示，而原始和声信号和响度从源音频中提取并保持不变。由于转换阶段中使用的SSL特征直接来自目标音频，因此所提出的框架有很大潜力解决先前基于解缠的方法引起的“音色泄漏”问题。实验结果证实，与说话者嵌入方法（基于解缠）相比，所提出的系统在跨语言、跨领域和单次SVC的情况下具有更好的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决歌唱声音转换中的声音色泄漏问题，提出了一种新的神经级联歌唱声音转换（NeuCoSVC）框架。
关键思路

该框架包括自监督学习的表示提取器、神经和声信号生成器和波形合成器，采用直接从目标音频提取的SSL特征进行转换，避免了之前基于解缠的方法所引起的声音色泄漏问题。
其它亮点

实验表明，该系统在一次性歌唱声音转换中的性能优于说话人嵌入方法（基于解缠的方法），并且在跨语言、跨领域评估中都表现出良好的性能。
相关研究

在最近的相关研究中，有一些相关的论文，如《Neural Voice Puppetry: Audio-driven Facial Reenactment》、《A Universal Music Translation Network》等。

neural concatenative singing voice conversion: rethinking concatenation-based approach for one-shot singing voice conversion

提问交流

提问交流