Exploring Musical Roots: Applying Audio Embeddings to Empower Influence Attribution for a Generative Music Model

2024年01月25日
  • 简介
    每个艺术家都有自己的创作过程,从前辈艺术家和他们的作品中汲取灵感。如今,“灵感”已被生成音乐模型自动化。这些模型的黑匣子性质掩盖了影响其创造性输出的作品的身份。因此,用户可能会无意中挪用、滥用或复制现有艺术家的作品。我们建立了一种可复制的方法,系统地识别相似的音乐音频,以有助于理解训练数据的归属。我们方法的一个关键方面是利用有效的音乐音频相似度度量。我们比较了将CLMR和CLAP嵌入应用于相似度测量在一组500万个音频剪辑中的效果,这些剪辑用于训练最近的开源生成音乐模型VampNet。我们通过人类听力研究验证了这种方法。我们还探讨了对音频示例的修改(例如音高变化、时间拉伸、背景噪声)对相似度测量的影响。这项工作是将自动影响归属纳入生成建模的基础,这有望让模型创建者和用户从无知的挪用转向知情的创作。本文附带的音频样本可在https://tinyurl.com/exploring-musical-roots上找到。
  • 图表
  • 解决问题
    论文试图通过建立可复制的方法系统地识别音频相似性,以便更好地了解生成音乐模型的训练数据来源,从而解决自动生成音乐模型中的知识产权问题。
  • 关键思路
    通过比较应用CLMR和CLAP嵌入到相似性测量中的效果,建立有效的音频相似性度量,并使用人类听力实验验证其有效性。同时,研究音频示例的修改对相似性测量的影响。
  • 其它亮点
    论文使用了500万个音频片段来训练VampNet生成音乐模型,并提供了音频样本和开源代码。实验结果表明,CLMR嵌入比CLAP嵌入更适用于音频相似性度量。该方法为生成模型的知识产权归属提供了基础,使模型创建者和用户能够从无知的挪用转向知情的创作。
  • 相关研究
    相关研究包括使用深度学习模型生成音乐的研究,例如《MuseGAN:多轨音乐生成器》(MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation)和《用于生成音乐的深度学习:现状与展望》(Deep Learning for Music Generation: A Survey)等。还有一些研究专注于音频相似性度量,例如《基于卷积神经网络的音频相似性度量》(Convolutional Neural Network-Based Audio Similarity Measures)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论