- 简介在跨模态音乐处理中,视觉、听觉和语义内容之间的翻译为开创新的可能性和挑战。这样一个转换方案的构建取决于具有全面数据基础设施的基准语料库。特别是,大规模跨模态数据集的组装面临重大挑战。本文介绍了MOSA(带语义标注的音乐运动)数据集,其中包含了23名专业音乐家的742个专业音乐表演的高质量三维动作捕捉数据、对齐的音频记录以及音高、节奏、乐句、动态、发音和和声的逐音符语义注释,总共超过30小时和570,000个数据。据我们所知,这是迄今为止具有音符级注释的最大的跨模态音乐数据集。为了演示MOSA数据集的用途,我们提出了几个创新的跨模态音乐信息检索和音乐内容生成任务,包括从音频、视频和运动数据中检测节拍、下拍、乐句和表现内容,以及根据给定的音乐音频生成音乐家的身体动作。该数据集和代码可以在本文旁边的链接(https://github.com/yufenhuang/MOSA-Music-mOtion-and-Semantic-Annotation-dataset)上找到。
- 图表
- 解决问题本论文旨在构建一个跨模态音乐数据集,以解决跨模态音乐处理中的翻译问题,包括视觉、听觉和语义内容之间的翻译,以及如何从音频、视频和运动数据中检测节拍、下拍、乐句和表现内容等问题。该数据集包含742个专业音乐家的30多个小时的高质量3D运动捕捉数据、对齐的音频记录和音符级的语义注释,是迄今为止最大的跨模态音乐数据集。
- 关键思路该论文提出了MOSA数据集,包含音乐家的3D运动捕捉数据、对齐的音频记录和音符级的语义注释。论文还提出了几个创新的跨模态音乐信息检索和音乐内容生成任务,包括从音频、视频和运动数据中检测节拍、下拍、乐句和表现内容,以及从给定的音乐音频生成音乐家的身体运动。
- 其它亮点该论文提出的MOSA数据集是迄今为止最大的跨模态音乐数据集,包含音乐家的3D运动捕捉数据、对齐的音频记录和音符级的语义注释。论文还提出了几个创新的跨模态音乐信息检索和音乐内容生成任务,并提供了数据集和代码。
- 在这个领域中,最近的相关研究包括《A Survey of Music Information Retrieval》、《Deep Learning for Music》等。
沙发等你来抢
去评论
评论
沙发等你来抢