Singing Voice Data Scaling-up: An Introduction to ACE-Opencpop and ACE-KiSing

2024年01月31日
  • 简介
    这项研究提出了一种独特的策略来解决歌声合成(SVS)中由于数据有限性而面临的挑战。我们采用了现有的歌声合成器进行数据增强,辅以详细的手动调整,这是以前未曾探索的数据处理方法,以减少不自然的声音合成。这种创新方法已经导致了两个广泛的歌声数据集的创建,即ACE-Opencpop和ACE-KiSing,这对于大规模的多歌手声音合成非常重要。通过彻底的实验,我们确定这些数据集不仅可以作为SVS的新基准,而且在作为补充资源时还可以提高其他歌声数据集的SVS性能。这些语料库、预训练模型及其相关的训练配方均可在ESPnet-Muskits(\url{https://github.com/espnet/espnet})公开获取。
  • 图表
  • 解决问题
    本论文旨在解决歌声合成中数据稀缺的问题,提出了一种新的数据扩充策略,同时通过详细的手动调整来减少不自然的合成声音。
  • 关键思路
    论文的关键思路是使用现有的歌声合成器进行数据扩充,结合详细的手动调整,以减少不自然的声音合成。这种方法不仅创造了两个广泛的歌声数据集,还可以提高其他歌声数据集的合成性能。
  • 其它亮点
    论文创造了两个广泛的歌声数据集,即ACE-Opencpop和ACE-KiSing,并且使用这些数据集作为辅助资源可以提高歌声合成的性能。在实验中,作者还使用了ESPnet-Muskits平台进行了开源实现。
  • 相关研究
    在最近的研究中,也有一些关于歌声合成的相关研究,如《Deep Learning for Singing Voice Synthesis: Recent Progress and Open Challenges》、《Singing Voice Synthesis: Recent Advances and Future Directions》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论