AQUALLM: Audio Question Answering Data Generation Using Large Language Models

2023年12月28日
  • 简介
    音频问答(AQA)是一项关键任务,机器分析音频信号和自然语言问题以产生准确的自然语言答案。当旨在实现AQA系统的精度时,拥有高质量、多样化和广泛的AQA数据集的重要性不言而喻。虽然已经有着重于开发准确和高效的AQA模型的显著关注,但是为特定任务创建高质量、多样化和广泛的数据集并未引起足够的关注。为了解决这个挑战,本文做出了几项贡献。我们引入了可扩展的AQA数据生成流程,称为AQUALLM框架,它依赖于大型语言模型(LLMs)。该框架利用现有的音频字幕注释,并结合最先进的LLMs生成广泛、高质量的AQA数据集。此外,我们还提供了三个广泛和高质量的AQA基准数据集,对AQA研究的进展做出了重大贡献。在我们提出的数据集上训练的AQA模型与现有的最先进水平相比,设定了更高的基准。此外,在我们的数据集上训练的模型与使用人工注释的AQA数据训练的模型相比,表现出了更好的泛化能力。代码和数据集将在GitHub上公开。
  • 图表
  • 解决问题
    本文旨在解决Audio Question Answering(AQA)的数据集不足的问题,提出了一种使用大型语言模型生成AQA数据集的框架AQUALLM,并构建了三个高质量的AQA基准数据集。
  • 关键思路
    本文提出了一种使用大型语言模型生成AQA数据集的框架AQUALLM,该框架利用现有的音频-字幕注释,结合最先进的大型语言模型,生成了大规模、高质量的AQA数据集。相较于现有的研究,该框架提出了一种新的解决方案。
  • 其它亮点
    本文的亮点包括:提出了一种新的框架AQUALLM,用于生成AQA数据集;构建了三个高质量的AQA基准数据集;实验结果表明,使用AQUALLM生成的数据集训练的AQA模型在性能上超过了现有的最先进模型,并且具有更好的泛化性能。此外,作者在GitHub上公开了代码和数据集。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如:《Audio Visual Scene-Aware Dialog》、《AudioCaps: Generating Captions for Audios in The Wild》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论