V2Meow: Meowing to the Visual Beat via Music Generation
解决问题:本篇论文旨在解决如何生成与视频内容相匹配的高质量音乐的问题。在现有的视觉条件音乐生成系统中,大多数生成的是符号音乐数据,如MIDI文件,而不是原始音频波形。由于符号音乐数据的有限可用性,这些方法只能为少数乐器或特定类型的视觉输入生成音乐。因此,本文提出了一种名为V2Meow的新方法,可以生成与各种视频输入类型的视觉语义相匹配的高质量音频。
关键思路:本文提出的音乐生成系统是一个多阶段自回归模型,使用了超过100K的音乐音频片段与视频帧进行训练,这些音频片段和视频帧来自于真实的音乐视频。与其他方法不同的是,V2Meow不需要并行的符号音乐数据,仅仅依靠预训练的视觉特征来生成高保真度的音频波形。此外,V2Meow还支持文本提示,以及视频帧作为条件,可以对生成示例的音乐风格进行高级控制。
其他亮点:论文的实验结果表明,V2Meow在视听一致性和音频质量方面均优于现有的音乐生成系统。该论文使用的数据集是从真实的音乐视频中提取的,并且未公开开源代码。
关于作者:本篇论文的主要作者来自于多个机构,包括斯坦福大学、谷歌、亚马逊、麻省理工学院等。其中,Fei Sha曾在UC Berkeley担任助理教授,其代表作包括“Deep Learning with Differential Privacy”和“Adversarial Examples for Evaluating Reading Comprehension Systems”。
相关研究:近期的相关研究包括“Music Transformer: Generating Music with Long-Term Structure”(Huang et al.,2018,Google Brain)和“MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation”(Yang et al.,2017,University of California)。
论文摘要:本文介绍了一种名为V2Meow的新方法,它可以生成高质量的音频,与各种类型的视频输入的视觉语义很好地对齐。与现有的大多数视觉条件的音乐生成系统不同,这种方法可以生成原始音频波形,而不是符号音乐数据,如MIDI文件。由于符号音乐数据的可用性有限,这种方法只能为少数乐器或特定类型的视觉输入生成音乐。V2Meow是一个多阶段自回归模型,通过与数十万个音频剪辑配对的视频帧进行训练,可以生成高保真度的音频波形,而无需使用并行符号音乐数据。它能够仅基于来自任意无声视频剪辑的预训练视觉特征来合成高保真度的音频波形,并且除了视频帧条件外,还支持文本提示来控制生成示例的音乐风格。通过定性和定量评估,我们证明了我们的模型在视觉音频对应和音频质量方面优于现有的几种音乐生成系统。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢