LP-MusicCaps: LLM-Based Pseudo Music Captioning
SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
[KAIST & Gaudio Lab, Inc. & Neutune]
LP-MusicCaps:基于LLM的伪音乐描述
-
动机:自动音乐字幕生成,即为给定的音轨生成自然语言描述,对于增强对大量音乐数据的理解和组织具有重要的潜力。然而,由于现有的音乐-语言数据集的收集过程成本高昂且耗时,研究人员面临挑战。为了解决这个数据稀缺的问题,本文提出使用大型语言模型(LLM)从大规模标签数据集中人工生成描述句子。 -
方法:使用大型语言模型(LLM)从大规模标签数据集中生成描述句子,生成了约220万个与50万个音频剪辑配对的描述,将其称为基于大型语言模型的伪音乐描述数据集,简称LP-MusicCaps。对大规模音乐描述数据集进行了系统评估,使用了自然语言处理领域使用的各种定量评估指标,以及人工评估。 -
优势:研究结果表明,所提出的方法在零样本和迁移学习设置下的表现优于监督基线模型。
提出了一种使用大型语言模型(LLM)从大规模标签数据集中生成描述句子的方法,创建了一个大规模的音乐描述数据集LP-MusicCaps,其在零样本和迁移学习设置下的表现优于监督基线模型。
https://arxiv.org/abs/2307.16372
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢