MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding

2024年05月15日
  • 简介
    近年来,短视频的发展迅速,通常包含视觉和音频两种模态。背景音乐对于短视频非常重要,可以显著影响观众的情感。然而,目前短视频的背景音乐通常由视频制作者选择,缺乏自动音乐推荐方法。本文介绍了一种创新的音乐-视频嵌入空间绑定模型MVBind,用于跨模态检索。MVBind作为一种自监督方法,直接从数据中获取模态间关系的内在知识,无需手动注释。此外,为了弥补短视频缺乏相应的音乐-视觉配对数据集的不足,我们构建了一个数据集SVM-10K(Short Video with Music-10K),主要包括精选的短视频。在这个数据集上,MVBind相比其他基线方法表现出显著的改进。构建的数据集和代码将被发布以促进未来的研究。
  • 图表
  • 解决问题
    本论文旨在解决短视频背景音乐自动推荐的问题,以及缺乏相应数据集的问题。
  • 关键思路
    论文提出了一种名为MVBind的自监督跨模态检索模型,通过数据直接获取跨模态关系的内在知识,无需手动注释。此外,为了弥补短视频背景音乐数据集的缺失,构建了SVM-10K数据集。
  • 其它亮点
    论文构建了SVM-10K数据集,该数据集由精选的短视频组成,并且MVBind在该数据集上表现出了显著的改进。该论文提供了开源代码和数据集,方便未来的研究。
  • 相关研究
    最近的相关研究包括:《Cross-modal Retrieval with Audio-Visual Attention Modeling》、《Learning Cross-Modal Embeddings with Adversarial Networks for Cooking Recipes and Food Images》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论