A Data-Driven Analysis of Robust Automatic Piano Transcription

2024年02月02日
  • 简介
    自动钢琴转录算法近年来由于新的数据集和建模技术的出现而有了显著的提升。最近的发展主要集中在采用新的神经网络架构(如Transformer和Perceiver)来提高系统的准确性。在这项工作中,我们从训练数据的角度研究转录系统。通过在分布外的带注释钢琴数据上测试它们的性能,我们展示了这些模型可以严重过拟合训练数据的声学特性。我们为MAESTRO数据集创建了一组新的音频,通过Yamaha Disklavier播放自动捕捉了专业录音室环境中的音频。在使用MAESTRO数据集的原始和重新执行版本进行训练时,使用各种数据增强技术,我们在没有看到任何MAPS数据集的训练数据的情况下,实现了88.4 F1分数的最先进的音符起始准确性。随后,我们在一系列消融研究中分析了这些数据增强技术,以更好地了解它们对结果模型的影响。
  • 图表
  • 解决问题
    研究自动钢琴转录算法的训练数据对模型性能的影响,以及如何通过数据增强来提高模型性能。
  • 关键思路
    通过使用自动捕获的专业录音室环境下的数据和数据增强技术,提高模型对于不同数据集的泛化能力,达到88.4 F1-score的最优表现。
  • 其它亮点
    使用自动捕获的专业录音室环境下的数据集,并使用数据增强技术进行训练,达到了目前最优的表现。研究了数据增强技术的影响。
  • 相关研究
    最近的研究主要集中在使用新的神经网络架构,如Transformer和Perceiver,以提高模型的准确性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论