- 简介自动歌声转录(AST)是将歌唱录音转换为音符序列的技术,有助于自动标注歌唱数据集,用于歌声合成(SVS)应用。然而,目前的AST方法在实际标注中存在准确性和鲁棒性问题。本文介绍了ROSVOT,这是第一个为SVS服务的鲁棒AST模型,采用多尺度框架,有效捕捉粗粒度的音符信息,并确保细粒度的帧级分割,同时采用基于注意力机制的音高解码器,以实现可靠的音高预测。我们还建立了一个全面的标注和训练流程,以在实际环境中测试模型。实验结果表明,ROSVOT在干净或嘈杂的输入下均实现了最先进的转录准确性。此外,当在扩大的自动标注数据集上进行训练时,SVS模型的性能超过了基线,证明了其实际应用的能力。音频样本可在https://rosvot.github.io上获得。
- 图表
- 解决问题解决问题的是音乐领域中的自动唱歌声音转录(AST)准确性和鲁棒性问题,以便于歌唱语音合成(SVS)应用的自动注释。
- 关键思路提出了一种名为ROSVOT的多尺度框架,结合基于注意力机制的音高解码器,以实现精确的音高预测和精细的帧级别分割,从而提高AST的准确性和鲁棒性。
- 其它亮点该论文实现了一个全面的注释和训练管道,以在实际环境中测试模型。实验结果表明,ROSVOT在处理干净或嘈杂的输入时均可实现最先进的转录准确性。此外,当在扩大的自动注释数据集上进行训练时,SVS模型的性能超过了基线,证明了其在实际应用中的能力。该论文提供了可用于下载的音频样本和开源代码。
- 在该领域的相关研究包括:1. 基于深度学习的歌唱语音合成;2. 基于注意力机制的音高预测方法;3. 自动唱歌声音转录的其他方法,如基于HMM、CNN和RNN的方法等。
沙发等你来抢
去评论
评论
沙发等你来抢