- 简介近年来,音乐生成内容越来越受欢迎,大型语言模型被有效地利用来产生各种风格、主题和语言结构的类人歌词。这种技术进步支持艺术家的创作过程,但也引发了关于版权侵犯、消费者满意度和内容垃圾邮件等问题。为了解决这些挑战,需要方法来检测生成的歌词。然而,现有的研究尚未专注于这种特定模态或关于机器生成内容检测方法和数据集的创意文本。为此,我们策划了第一个高质量合成歌词数据集,并对各种少样本内容检测方法进行了全面的定量评估,测试了它们的泛化能力,并辅之以人类评估。我们最好的少样本检测器基于LLM2Vec,超越了风格和统计方法,在其他领域区分人类写作和机器生成内容方面表现出竞争力。它还展示了良好的泛化能力,适用于新的艺术家和模型,并有效地检测生成后的释义。这项研究强调了进一步研究创意内容检测的需要,特别是在更大的歌曲目录方面的泛化和可扩展性方面。所有数据集、预处理脚本和代码都在Apache 2.0许可下公开在GitHub和Hugging Face上。
- 图表
- 解决问题本论文旨在解决如何检测生成的歌词的问题,以及如何区分人工创作的歌词和机器生成的歌词的问题。这是一个新的问题。
- 关键思路本论文提出了一种基于 LLM2Vec 的 few-shot 检测器,该检测器能够有效地检测机器生成的歌词,并具有良好的泛化能力。相比于当前领域的研究,该方法具有创新性。
- 其它亮点本论文提供了第一个高质量合成歌词数据集,并进行了全面的定量评估。研究表明,LLM2Vec 检测器优于其他基于统计和风格的方法,并具有良好的泛化能力。研究还强调了需要进一步研究创意内容检测的需求,并提供了数据集、预处理脚本和代码。
- 最近的相关研究包括基于深度学习的自然语言处理和生成模型,以及文本检测和分类方法。相关论文包括《A Neural Algorithm of Artistic Style》、《Generating Long Sequences with Sparse Transformers》和《Few-Shot Text Classification with Distributional Signatures》等。
沙发等你来抢
去评论
评论
沙发等你来抢