CoMoSVC: Consistency Model-based Singing Voice Conversion

简介

这篇论文介绍了基于扩散的歌声转换（SVC）方法已经取得了非凡的表现，能够生成与目标音色高度相似的自然音频。然而，迭代采样过程导致推理速度缓慢，因此加速变得至关重要。本文提出了CoMoSVC，一种基于一致性模型的SVC方法，旨在实现高质量的生成和高速采样。首先为SVC专门设计了基于扩散的教师模型，然后在自一致性属性下进一步提炼学生模型以实现一步采样。在单个NVIDIA GTX4090 GPU上的实验表明，尽管CoMoSVC的推理速度显著快于最先进的（SOTA）基于扩散的SVC系统，但它仍然在主观和客观指标的基础上实现了可比或更优的转换性能。音频样本和代码可在https://comosvc.github.io/上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决SVC方法中迭代采样过程导致推理速度缓慢的问题，并提出了一种基于一致性模型的SVC方法。
关键思路

CoMoSVC方法首先设计了一个专门用于SVC的扩散式教师模型，然后在自一致性的条件下进一步提炼出一个学生模型，以实现单步采样。
其它亮点

CoMoSVC方法在单个NVIDIA GTX4090 GPU上进行实验，推理速度显著快于现有的扩散式SVC系统，同时在主观和客观指标上实现了可比或更高的转换性能。该论文提供了音频样本和代码，并可在https://comosvc.github.io/上获取。
相关研究

最近的相关研究包括：1. Tacotron 2: Generating Human-like Speech from Text; 2. Neural Voice Puppetry: Audio-driven Facial Reenactment; 3. Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning。

CoMoSVC: Consistency Model-based Singing Voice Conversion

提问交流

提问交流