The NES Video-Music Database: A Dataset of Symbolic Video Game Music Paired with Gameplay Videos

2024年04月05日
  • 简介
    神经网络模型是音乐生成最受欢迎的方法之一,但是目前没有针对从游戏数据直接学习音乐的标准大型数据集。为了解决这个研究空白,我们介绍了一个新的数据集,名为NES-VMDB,其中包含来自389个NES游戏的98,940个游戏过程视频,每个视频都与其原始音轨(MIDI格式)配对。NES-VMDB基于Nintendo Entertainment System Music Database(NES-MDB),包含来自397个NES游戏的5,278个音乐作品。我们的方法涉及收集原始数据集中389个游戏的长时间播放视频,将它们切成15秒长的片段,并从每个片段中提取音频。随后,我们应用了一种音频指纹算法(类似于Shazam)来自动识别NES-MDB数据集中相应的音乐作品。此外,我们引入了一种基于Controllable Music Transformer的基线方法,用于生成基于游戏过程片段的NES音乐。我们使用客观指标评估了这种方法,结果表明,与其无条件版本相比,有条件的CMT提高了音乐结构质量。此外,我们使用神经分类器来预测生成的作品的游戏类型。结果表明,CMT生成器可以学习游戏过程视频和游戏类型之间的相关性,但需要进一步研究以实现人类水平的性能。
  • 图表
  • 解决问题
    论文旨在解决从游戏数据中直接学习音乐生成的数据集不足的问题,介绍了一个新的数据集NES-VMDB,包含98,940个游戏视频和相应的MIDI格式原始音轨。
  • 关键思路
    通过将长时间游戏视频切成15秒的片段,并从每个片段提取音频,使用类似Shazam的音频指纹算法自动识别对应的音乐片段,然后使用可控音乐变换器生成与游戏片段相关的NES音乐。
  • 其它亮点
    论文介绍了一个新的数据集NES-VMDB,同时提出了一种基于可控音乐变换器的音乐生成方法,该方法在音乐结构质量方面优于无条件的方法。实验使用了神经分类器来预测生成的音乐所属的游戏类型,结果表明,可控音乐变换器可以学习到游戏视频和游戏类型之间的相关性。
  • 相关研究
    在相关研究中,最近的一些研究包括使用GAN生成音乐的方法以及使用LSTM生成音乐的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论