TokSing: Singing Voice Synthesis based on Discrete Tokens

2024年06月12日
  • 简介
    近期语音合成方面的进展表明,利用自监督学习(SSL)模型提取的离散标记可以带来显著的好处。与传统的连续Mel频谱图相比,离散标记在中间表示方面提供了更高的存储效率和更大的可操作性。然而,在歌声合成方面,实现更高水平的旋律表达对于利用离散标记来说是一个巨大的挑战。在本文中,我们介绍了TokSing,一个基于离散标记的歌声合成系统,配备了一个提供灵活标记混合的标记制定器。我们观察到在离散化过程中存在旋律退化的现象,促使我们将旋律信号与离散标记相结合,并在音乐编码器中加入了一个特别设计的旋律增强策略。广泛的实验表明,我们的TokSing在提供中间表示空间成本和收敛速度方面具有优势的同时,也比Mel频谱图基线表现更好。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决唱歌声音合成中离散标记对于旋律表达的限制问题。
  • 关键思路
    论文提出了一种基于离散标记的唱歌声音合成系统TokSing,并在音乐编码器中引入旋律增强策略,以提高旋律表达的质量。
  • 其它亮点
    TokSing系统在中间表示空间成本和收敛速度方面具有优势,并在实验中表现出比Mel频谱图基线更好的性能。论文使用了自己的数据集,并提供了开源代码。
  • 相关研究
    在相关研究方面,最近的一些论文包括:'Neural Singing Synthesizer: A General Framework for Vocal Synthesis with Transformers'和'Transformer-based Singing Voice Synthesis with F0 Control'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问