- 简介感知和理解非语音声音和非语言语音对于我们与环境互动并做出决策至关重要。在本文中,我们提出了GAMA,一种具有先进音频理解和复杂推理能力的新型通用大型音频语言模型(LALM)。我们通过将LLM与多种类型的音频表示集成,包括来自自定义音频Q-Former的特征和聚合器,从多个音频编码器层聚合特征,来构建GAMA。我们在大规模音频语言数据集上微调GAMA,增强其音频理解能力。接下来,我们提出了CompA-R(用于复杂音频推理的指令调整),这是一个合成生成的指令调整(IT)数据集,其中的指令要求模型对输入音频进行复杂推理。我们使用CompA-R对GAMA进行指令调整,赋予其复杂推理能力,并通过利用输入音频的事件标签添加高级语义证据作为输入的软提示。最后,我们还提出了CompA-R-test,这是一个人工标记的评估数据集,用于评估LALMs在需要复杂推理的开放式音频问答上的能力。通过自动化和专家人工评估,我们展示了GAMA在各种音频理解任务上的表现优于文献中的所有其他LALMs,优势范围为1%-84%。此外,经过CompA-R IT的GAMA在其复杂推理和指令跟随能力方面证明更加优越。
- 图表
- 解决问题本论文旨在提出一种新的通用大型音频语言模型GAMA,以解决音频理解和复杂推理问题。通过使用自定义的音频Q-Former和多层聚合器来整合多种类型的音频表示,将LLM与音频表示相结合,最终通过对大规模音频语言数据集进行微调,使GAMA具备音频理解能力。同时,通过CompA-R数据集进行指令微调,为GAMA赋予复杂推理能力。
- 关键思路本论文的关键思路是将LLM与音频表示相结合,使用自定义的音频Q-Former和多层聚合器整合多种类型的音频表示,并通过大规模音频语言数据集进行微调,使GAMA具备音频理解能力。同时,通过CompA-R数据集进行指令微调,为GAMA赋予复杂推理能力。
- 其它亮点本论文提出的GAMA模型在多种音频理解任务中表现出优异的性能,比其他LALMs的表现提高了1%-84%。同时,论文使用了CompA-R数据集进行指令微调,为GAMA赋予了复杂推理能力。论文还提供了CompA-R-test数据集用于评估LALMs在需要复杂推理的开放式音频问答方面的能力。论文的实验设计合理,使用了多个数据集,但没有提供开源代码。
- 在最近的相关研究中,也有一些关于音频理解和复杂推理的论文。例如,"AudioBERT: A Speech Representation Learning Model for End-to-End ASR"和"Audio-Visual Scene-Aware Dialog using Multimodal Transformers"等。
沙发等你来抢
去评论
评论
沙发等你来抢