- 简介在这项工作中,我们系统地研究了仅基于视频生成音乐的方法。首先,我们提出了一个大规模的数据集,包括190K个视频音乐对,包括电影预告片、广告和纪录片等各种流派。此外,我们提出了VidMuse,一个简单的框架,用于生成与视频输入对齐的音乐。VidMuse通过结合局部和全局的视觉线索,使得通过长短期建模创造出与视频内容一致的音频轨迹,从而产生高保真度的音乐,既在声学上又在语义上与视频对齐。通过广泛的实验,VidMuse在音频质量、多样性和音频-视觉对齐方面优于现有模型。代码和数据集将在https://github.com/ZeyueT/VidMuse/上提供。
-
- 图表
- 解决问题本论文试图解决的问题是如何仅基于视频生成音乐,并且音乐与视频保持高度一致性。
- 关键思路论文提出了一种名为VidMuse的框架,通过结合局部和全局视觉线索,使用长短时记忆模型生成与视频输入相一致的高保真音乐。
- 其它亮点论文提出了一个包含190K个视频-音乐对的大规模数据集,并且提出的VidMuse框架在音频质量、多样性和音频-视觉一致性方面均优于现有模型。论文还将代码和数据集开源。
- 在这个领域中,最近的相关研究包括:"Music Generation from Visual Data"、"Video to Music Generation using Hierarchical Attention Recurrent Neural Networks"、"Audio-Visual Scene-Aware Dialog with Hierarchical Modular Architecture"等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流