- 简介多模态学习在音频语言领域近年来取得了显著进展。然而,与图像语言任务相比,音频语言学习面临着数据有限和质量较低的挑战。现有的音频语言数据集明显较小,手动标注受到需要听整个音频剪辑才能准确标注的限制。我们的方法通过增加自然语言标签和相应的音频信号处理操作来系统地生成音频-字幕对。利用大型语言模型,我们使用提示模板生成增强音频剪辑的描述。这种可扩展的方法产生了高质量的训练数据集AudioSetMix,用于文本和音频相关模型。整合我们的数据集通过提供多样化和更好对齐的示例来提高模型在基准测试中的性能。值得注意的是,我们的数据集解决了现有数据集中缺乏修饰词(形容词和副词)的问题。通过使模型学习这些概念,并在训练期间生成困难的负面示例,我们在多个基准测试上实现了最先进的性能。
- 图表
- 解决问题论文试图通过生成音频字幕对来增强音频-语言领域的多模态学习,解决现有数据集小且质量较低的问题。
- 关键思路论文提出了一种通过扩充音频剪辑和自然语言标签以及相应的音频信号处理操作来生成音频字幕对的方法,并利用大型语言模型生成增强音频剪辑的描述,从而生成高质量的训练数据集AudioSetMix。
- 其它亮点该数据集解决了现有数据集中缺少修饰词的问题,并通过提供更多样化和更好对齐的示例来提高模型性能。实验表明,该方法在多个基准测试中实现了最先进的性能。
- 与该论文相关的研究包括:《Large-Scale Audio-Visual Video Pre-Training for Multimodal Understanding and Generation》、《Learning Multimodal Representations from Synthetic Audio-Visual Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢