- 简介近期语音合成方面的进展表明,利用自监督学习(SSL)模型提取的离散标记可以带来显著的好处。与传统的连续Mel频谱图相比,离散标记在中间表示方面提供了更高的存储效率和更大的可操作性。然而,在歌声合成方面,实现更高水平的旋律表达对于利用离散标记来说是一个巨大的挑战。在本文中,我们介绍了TokSing,一个基于离散标记的歌声合成系统,配备了一个提供灵活标记混合的标记制定器。我们观察到在离散化过程中存在旋律退化的现象,促使我们将旋律信号与离散标记相结合,并在音乐编码器中加入了一个特别设计的旋律增强策略。广泛的实验表明,我们的TokSing在提供中间表示空间成本和收敛速度方面具有优势的同时,也比Mel频谱图基线表现更好。
-
- 图表
- 解决问题本论文旨在解决唱歌声音合成中离散标记对于旋律表达的限制问题。
- 关键思路论文提出了一种基于离散标记的唱歌声音合成系统TokSing,并在音乐编码器中引入旋律增强策略,以提高旋律表达的质量。
- 其它亮点TokSing系统在中间表示空间成本和收敛速度方面具有优势,并在实验中表现出比Mel频谱图基线更好的性能。论文使用了自己的数据集,并提供了开源代码。
- 在相关研究方面,最近的一些论文包括:'Neural Singing Synthesizer: A General Framework for Vocal Synthesis with Transformers'和'Transformer-based Singing Voice Synthesis with F0 Control'。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流