neural concatenative singing voice conversion: rethinking concatenation-based approach for one-shot singing voice conversion

2023年12月08日
  • 简介
    任何到任何的歌声转换都面临一个重大挑战,即由于内容和说话者音色之间的解缠不足而导致的“音色泄漏”问题。为了解决这个问题,本研究引入了一种新颖的神经级联歌声转换(NeuCoSVC)框架。NeuCoSVC框架包括自监督学习(SSL)表示提取器、神经和声信号生成器和波形合成器。具体而言,SSL提取器将音频压缩成一系列固定维度的SSL特征序列。和声信号生成器通过利用线性时变(LTV)滤波器产生原始和过滤后的和声信号作为音高信息。最后,音频生成器基于SSL特征、和声信号和响度信息重构音频波形。在推理过程中,系统通过将源SSL特征替换为匹配池中最近的目标音频的对应特征来执行语音转换,其中匹配池包括从目标音频提取的SSL表示,而原始和声信号和响度从源音频中提取并保持不变。由于转换阶段中使用的SSL特征直接来自目标音频,因此所提出的框架有很大潜力解决先前基于解缠的方法引起的“音色泄漏”问题。实验结果证实,与说话者嵌入方法(基于解缠)相比,所提出的系统在跨语言、跨领域和单次SVC的情况下具有更好的性能。
  • 图表
  • 解决问题
    本论文试图解决歌唱声音转换中的声音色泄漏问题,提出了一种新的神经级联歌唱声音转换(NeuCoSVC)框架。
  • 关键思路
    该框架包括自监督学习的表示提取器、神经和声信号生成器和波形合成器,采用直接从目标音频提取的SSL特征进行转换,避免了之前基于解缠的方法所引起的声音色泄漏问题。
  • 其它亮点
    实验表明,该系统在一次性歌唱声音转换中的性能优于说话人嵌入方法(基于解缠的方法),并且在跨语言、跨领域评估中都表现出良好的性能。
  • 相关研究
    在最近的相关研究中,有一些相关的论文,如《Neural Voice Puppetry: Audio-driven Facial Reenactment》、《A Universal Music Translation Network》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论