Accompanied Singing Voice Synthesis with Fully Text-controlled Melody

2024年07月02日
  • 简介
    “Text-to-song (TTSong)”是一项生成伴奏歌声的音乐生成任务。目前的TTSong方法继承自歌声合成(SVS),需要与旋律相关的信息,例如乐谱或MIDI序列,有时不太实用。我们提出了MelodyLM,这是第一个生成高质量歌曲片段的TTSong模型,其完全由文本控制旋律,实现了最小用户要求和最大控制灵活性。MelodyLM将MIDI作为中间旋律相关特征明确建模,并以语言模型方式顺序生成语音轨道,条件是文本和语音提示。随后,通过具有时间对齐的混合调节的潜在扩散模型合成伴奏音乐。用户只需输入歌词和参考声音即可合成歌曲示例,最小要求即可。对于完全控制,只需输入文本提示甚至直接输入MIDI。实验结果表明,MelodyLM在客观和主观指标方面均取得了优异的性能。音频样本可在https://melodylm666.github.io上获得。
  • 作者讲解
  • 图表
  • 解决问题
    MelodyLM试图解决TTSong中SVS方法需要乐谱或MIDI序列等信息的问题,提出了一种完全由文本控制旋律的高质量歌曲生成模型。
  • 关键思路
    MelodyLM将MIDI作为中间旋律相关特征,通过语言模型方式生成语音轨道,再使用混合条件的潜在扩散模型合成伴奏音乐。
  • 其它亮点
    MelodyLM模型具有最小的用户要求,只需要输入歌词和参考音频即可合成歌曲。同时,用户也可以直接输入文本提示或MIDI进行完全控制。实验结果表明,MelodyLM在客观和主观指标上均具有优秀的性能。
  • 相关研究
    与MelodyLM相关的研究包括:1)基于SVS的TTSong方法,如DeepSinger和DeepMVS;2)使用语言模型的TTS方法,如Tacotron和Transformer TTS;3)使用潜在扩散模型的音乐生成方法,如DDSP和WaveGrad。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问