Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model

2024年06月25日
  • 简介
    多语言自动歌词转录(ALT)是一项具有挑战性的任务,因为与多语言自动语音识别相比,标注数据的可用性受限,而且由于唱歌的复杂性而带来了一些挑战。尽管最近发布了一些多语言唱歌数据集,但英语仍然占据了这些收集的主导地位。由于数据规模和注释质量的问题,多语言ALT仍未得到充分探索。本文旨在利用现有数据集创建一个多语言ALT系统。受到已被证明对英语ALT有效的架构的启发,我们通过扩展目标词汇集来适应多语言情境。然后,我们评估多语言模型与其单语言对应模型的性能。此外,我们探索了各种调节方法,将语言信息纳入模型。我们通过语言分析并将其与语言分类性能相结合。我们的研究结果表明,多语言模型的性能始终优于在语言子集上训练的单语言模型。此外,我们证明了将语言信息纳入模型可以显著提高性能。
  • 图表
  • 解决问题
    本论文旨在创建一个多语言的自动歌词转录系统,解决多语言数据集和注释质量的挑战。
  • 关键思路
    在扩展目标词汇集的基础上,将已被证明对英语自动歌词转录有效的架构应用于多语言情况,并探索各种条件方法将语言信息纳入模型中,以提高性能。
  • 其它亮点
    论文使用了一些多语言歌唱数据集,并进行了多语言模型与单语言模型的比较。实验结果表明,多语言模型的性能优于单语言子集训练的单语言模型,并且将语言信息纳入模型中可以显著提高性能。
  • 相关研究
    最近的相关研究包括:《Multilingual Automatic Speech Recognition: A Survey of the State of the Art》、《A Survey on Multilingual Speech Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论