VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

简介

在这项工作中，我们系统地研究了仅基于视频生成音乐的方法。首先，我们提出了一个大规模的数据集，包括190K个视频音乐对，包括电影预告片、广告和纪录片等各种流派。此外，我们提出了VidMuse，一个简单的框架，用于生成与视频输入对齐的音乐。VidMuse通过结合局部和全局的视觉线索，使得通过长短期建模创造出与视频内容一致的音频轨迹，从而产生高保真度的音乐，既在声学上又在语义上与视频对齐。通过广泛的实验，VidMuse在音频质量、多样性和音频-视觉对齐方面优于现有模型。代码和数据集将在https://github.com/ZeyueT/VidMuse/上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决的问题是如何仅基于视频生成音乐，并且音乐与视频保持高度一致性。
关键思路

论文提出了一种名为VidMuse的框架，通过结合局部和全局视觉线索，使用长短时记忆模型生成与视频输入相一致的高保真音乐。
其它亮点

论文提出了一个包含190K个视频-音乐对的大规模数据集，并且提出的VidMuse框架在音频质量、多样性和音频-视觉一致性方面均优于现有模型。论文还将代码和数据集开源。
相关研究

在这个领域中，最近的相关研究包括："Music Generation from Visual Data"、"Video to Music Generation using Hierarchical Attention Recurrent Neural Networks"、"Audio-Visual Scene-Aware Dialog with Hierarchical Modular Architecture"等。

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

提问交流

提问交流