Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

简介

自动音乐转录（AMT）是音乐信息处理领域中至关重要的技术。尽管机器学习技术的最新改进在表现上取得了高精度，但目前的方法通常在具有丰富注释数据的领域中获得高精度。解决低资源或无资源领域的问题仍然是一个未解决的挑战。为了解决这个问题，我们提出了一种转录模型，它不需要任何MIDI-音频配对数据，通过使用可扩展的合成音频进行预训练和对抗域混淆使用未注释的真实音频。在实验中，我们在真实世界的应用场景下评估方法，在这种场景下，训练数据集不包括目标数据领域中音频的MIDI注释。我们提出的方法相对于已建立的基线方法取得了竞争性的性能，尽管没有利用任何配对的MIDI-音频的真实数据集。此外，消融研究提供了关于这种方法的可扩展性和AMT研究领域即将面临的挑战的见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决音乐信息处理中自动音乐转录技术（AMT）在缺乏标注数据的领域中的问题。
关键思路

本论文提出了一种不需要MIDI-音频配对数据的转录模型，通过使用可扩展的合成音频进行预训练和对抗领域混淆来利用未标注的真实音频。
其它亮点

实验结果表明，与已有的基准方法相比，本论文提出的方法在没有使用任何实际配对MIDI-音频数据集的情况下，仍然具有竞争力的性能。此外，论文还对该方法的可扩展性和未来的挑战进行了深入的研究。
相关研究

最近的相关研究包括“End-to-End Neural Music Transcription with Connectionist Temporal Classification”和“On the Potential of Simple Framewise Approaches to Piano Transcription”。

Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

提问交流

提问交流