TokSing: Singing Voice Synthesis based on Discrete Tokens

简介

近期语音合成方面的进展表明，利用自监督学习（SSL）模型提取的离散标记可以带来显著的好处。与传统的连续Mel频谱图相比，离散标记在中间表示方面提供了更高的存储效率和更大的可操作性。然而，在歌声合成方面，实现更高水平的旋律表达对于利用离散标记来说是一个巨大的挑战。在本文中，我们介绍了TokSing，一个基于离散标记的歌声合成系统，配备了一个提供灵活标记混合的标记制定器。我们观察到在离散化过程中存在旋律退化的现象，促使我们将旋律信号与离散标记相结合，并在音乐编码器中加入了一个特别设计的旋律增强策略。广泛的实验表明，我们的TokSing在提供中间表示空间成本和收敛速度方面具有优势的同时，也比Mel频谱图基线表现更好。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决唱歌声音合成中离散标记对于旋律表达的限制问题。
关键思路

论文提出了一种基于离散标记的唱歌声音合成系统TokSing，并在音乐编码器中引入旋律增强策略，以提高旋律表达的质量。
其它亮点

TokSing系统在中间表示空间成本和收敛速度方面具有优势，并在实验中表现出比Mel频谱图基线更好的性能。论文使用了自己的数据集，并提供了开源代码。
相关研究

在相关研究方面，最近的一些论文包括：'Neural Singing Synthesizer: A General Framework for Vocal Synthesis with Transformers'和'Transformer-based Singing Voice Synthesis with F0 Control'。

TokSing: Singing Voice Synthesis based on Discrete Tokens

提问交流

提问交流