- 简介现有的音乐字幕方法仅能生成简洁的短音乐片段的全局描述,无法捕捉到细粒度的音乐特征和时域的音乐变化。为了解决这些限制,我们提出了FUTGA模型,该模型通过从具有时态组合的生成增强中学习,具备了细粒度的音乐理解能力。我们利用现有的音乐字幕数据集和大型语言模型(LLMs)来合成具有结构描述和时间边界的全长歌曲的细粒度音乐字幕。在所提出的合成数据集的增强下,FUTGA能够识别音乐在关键转折点的时域变化及其音乐功能,并为每个音乐片段生成详细的描述。我们还介绍了由FUTGA生成的全长音乐字幕数据集,作为MusicCaps和Song Describer数据集的增强。我们在几个下游任务中评估了自动生成的字幕,包括音乐生成和检索。实验证明了所提出的音乐字幕方法的生成质量和在各种下游任务中表现更好。我们的代码和数据集可以在\href{https://huggingface.co/JoshuaW1997/FUTGA}{\textcolor{blue}{https://huggingface.co/JoshuaW1997/FUTGA}}找到。
- 图表
- 解决问题本论文旨在解决现有音乐字幕方法无法捕捉细粒度音乐特征和时间感知音乐变化的问题。该论文提出了一种通过学习时间组合的生成增强来具备细粒度音乐理解能力的模型FUTGA。
- 关键思路FUTGA模型结合了生成增强和大型语言模型,通过合成带有结构描述和时间边界的细粒度音乐字幕来识别音乐的时间变化和生成每个音乐段的详细描述。同时,论文还引入了由FUTGA生成的全长音乐字幕数据集,并在多个下游任务中评估了自动生成的字幕的质量。
- 其它亮点论文的亮点包括:提出了一种具备细粒度音乐理解能力的模型FUTGA,利用生成增强和大型语言模型合成带有结构描述和时间边界的细粒度音乐字幕,引入了由FUTGA生成的全长音乐字幕数据集,评估了自动生成的字幕在多个下游任务中的表现。论文提供了代码和数据集。
- 最近在这个领域中的相关研究包括:MusicBERT、MusicTransformer和MuseGAN等。
沙发等你来抢
去评论
评论
沙发等你来抢