Accompanied Singing Voice Synthesis with Fully Text-controlled Melody

简介

“Text-to-song (TTSong)”是一项生成伴奏歌声的音乐生成任务。目前的TTSong方法继承自歌声合成（SVS），需要与旋律相关的信息，例如乐谱或MIDI序列，有时不太实用。我们提出了MelodyLM，这是第一个生成高质量歌曲片段的TTSong模型，其完全由文本控制旋律，实现了最小用户要求和最大控制灵活性。MelodyLM将MIDI作为中间旋律相关特征明确建模，并以语言模型方式顺序生成语音轨道，条件是文本和语音提示。随后，通过具有时间对齐的混合调节的潜在扩散模型合成伴奏音乐。用户只需输入歌词和参考声音即可合成歌曲示例，最小要求即可。对于完全控制，只需输入文本提示甚至直接输入MIDI。实验结果表明，MelodyLM在客观和主观指标方面均取得了优异的性能。音频样本可在https://melodylm666.github.io上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

MelodyLM试图解决TTSong中SVS方法需要乐谱或MIDI序列等信息的问题，提出了一种完全由文本控制旋律的高质量歌曲生成模型。
关键思路

MelodyLM将MIDI作为中间旋律相关特征，通过语言模型方式生成语音轨道，再使用混合条件的潜在扩散模型合成伴奏音乐。
其它亮点

MelodyLM模型具有最小的用户要求，只需要输入歌词和参考音频即可合成歌曲。同时，用户也可以直接输入文本提示或MIDI进行完全控制。实验结果表明，MelodyLM在客观和主观指标上均具有优秀的性能。
相关研究

与MelodyLM相关的研究包括：1）基于SVS的TTSong方法，如DeepSinger和DeepMVS；2）使用语言模型的TTS方法，如Tacotron和Transformer TTS；3）使用潜在扩散模型的音乐生成方法，如DDSP和WaveGrad。

Accompanied Singing Voice Synthesis with Fully Text-controlled Melody

提问交流

提问交流