CoMoSVC: Consistency Model-based Singing Voice Conversion

2024年01月03日
  • 简介
    这篇论文介绍了基于扩散的歌声转换(SVC)方法已经取得了非凡的表现,能够生成与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度缓慢,因此加速变得至关重要。本文提出了CoMoSVC,一种基于一致性模型的SVC方法,旨在实现高质量的生成和高速采样。首先为SVC专门设计了基于扩散的教师模型,然后在自一致性属性下进一步提炼学生模型以实现一步采样。在单个NVIDIA GTX4090 GPU上的实验表明,尽管CoMoSVC的推理速度显著快于最先进的(SOTA)基于扩散的SVC系统,但它仍然在主观和客观指标的基础上实现了可比或更优的转换性能。音频样本和代码可在https://comosvc.github.io/上获取。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决SVC方法中迭代采样过程导致推理速度缓慢的问题,并提出了一种基于一致性模型的SVC方法。
  • 关键思路
    CoMoSVC方法首先设计了一个专门用于SVC的扩散式教师模型,然后在自一致性的条件下进一步提炼出一个学生模型,以实现单步采样。
  • 其它亮点
    CoMoSVC方法在单个NVIDIA GTX4090 GPU上进行实验,推理速度显著快于现有的扩散式SVC系统,同时在主观和客观指标上实现了可比或更高的转换性能。该论文提供了音频样本和代码,并可在https://comosvc.github.io/上获取。
  • 相关研究
    最近的相关研究包括:1. Tacotron 2: Generating Human-like Speech from Text; 2. Neural Voice Puppetry: Audio-driven Facial Reenactment; 3. Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问