LP-MusicCaps: LLM-Based Pseudo Music Captioning

SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
[KAIST & Gaudio Lab, Inc. & Neutune]

LP-MusicCaps:基于LLM的伪音乐描述

  • 动机:自动音乐字幕生成,即为给定的音轨生成自然语言描述,对于增强对大量音乐数据的理解和组织具有重要的潜力。然而,由于现有的音乐-语言数据集的收集过程成本高昂且耗时,研究人员面临挑战。为了解决这个数据稀缺的问题,本文提出使用大型语言模型(LLM)从大规模标签数据集中人工生成描述句子。
  • 方法:使用大型语言模型(LLM)从大规模标签数据集中生成描述句子,生成了约220万个与50万个音频剪辑配对的描述,将其称为基于大型语言模型的伪音乐描述数据集,简称LP-MusicCaps。对大规模音乐描述数据集进行了系统评估,使用了自然语言处理领域使用的各种定量评估指标,以及人工评估。
  • 优势:研究结果表明,所提出的方法在零样本和迁移学习设置下的表现优于监督基线模型。

提出了一种使用大型语言模型(LLM)从大规模标签数据集中生成描述句子的方法,创建了一个大规模的音乐描述数据集LP-MusicCaps,其在零样本和迁移学习设置下的表现优于监督基线模型。

https://arxiv.org/abs/2307.16372 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除