CONTUNER: Singing Voice Beautifying with Pitch and Expressiveness Condition

2024年04月30日
  • 简介
    歌声美化是一项新颖的任务,具有在人们日常生活中的应用价值,旨在在不改变原声和内容的情况下,纠正歌声音高并提高表现力。现有的方法依赖于成对数据或仅集中于音高的纠正。然而,专业歌曲和同一人的业余歌曲很难获得,歌声美化不仅包含音高校正,还包括情感和节奏等其他方面。因此,我们提出了一种快速高保真度的歌声美化系统ConTuner,该系统采用扩散模型结合修改后的条件来生成美化的Mel频谱图,其中修改后的条件由优化的音高和表现力组成。为了进行音高校正,我们建立了从MIDI、谱包络到音高的映射关系。为了使业余歌唱更具表现力,我们在潜在空间中提出了表现力增强器,将业余歌唱转换为专业歌唱。ConTuner在普通话和英语歌曲上均实现了令人满意的美化效果。消融研究表明,ConTuner中的表现力增强器和基于生成器的加速方法是有效的。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决歌声美化的问题,即如何在不改变原始音色和内容的情况下,改善歌声的音高和表现力,而不依赖于配对数据。
  • 关键思路
    论文提出了一种名为ConTuner的快速高保真歌声美化系统,利用扩散模型和修改后的条件生成经过美化的Mel频谱图,其中修改后的条件由优化的音高和表现力组成。为了进行音高校正,论文建立了从MIDI、频谱包络到音高的映射关系。为了让业余歌唱更具表现力,论文在潜空间中提出了表现力增强器,将业余声音转化为专业声音。
  • 其它亮点
    论文在普通话和英语歌曲上实现了令人满意的美化效果。消融实验表明,ConTuner中的表现力增强器和基于生成器的加速方法是有效的。
  • 相关研究
    在相关研究方面,最近的一些研究包括:《Unsupervised Singing Voice Conversion》、《Singing Voice Separation with Deep U-Net Convolutional Networks》、《Singing Voice Synthesis with User's Voice Style Using CycleGAN》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问