LP-MusicCaps：基于LLM的伪音乐描述

LP-MusicCaps: LLM-Based Pseudo Music Captioning

SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
[KAIST & Gaudio Lab, Inc. & Neutune]

动机：自动音乐字幕生成，即为给定的音轨生成自然语言描述，对于增强对大量音乐数据的理解和组织具有重要的潜力。然而，由于现有的音乐-语言数据集的收集过程成本高昂且耗时，研究人员面临挑战。为了解决这个数据稀缺的问题，本文提出使用大型语言模型(LLM)从大规模标签数据集中人工生成描述句子。
方法：使用大型语言模型(LLM)从大规模标签数据集中生成描述句子，生成了约220万个与50万个音频剪辑配对的描述，将其称为基于大型语言模型的伪音乐描述数据集，简称LP-MusicCaps。对大规模音乐描述数据集进行了系统评估，使用了自然语言处理领域使用的各种定量评估指标，以及人工评估。
优势：研究结果表明，所提出的方法在零样本和迁移学习设置下的表现优于监督基线模型。

提出了一种使用大型语言模型(LLM)从大规模标签数据集中生成描述句子的方法，创建了一个大规模的音乐描述数据集LP-MusicCaps，其在零样本和迁移学习设置下的表现优于监督基线模型。

内容中包含的图片若涉及版权问题，请及时与我们联系删除