Audio Dialogues: Dialogues dataset for audio and music understanding

简介

现有的音频理解数据集主要集中于描述自然语言中的单轮交互（即音频字幕，音频问答），从而限制了通过交互式对话理解音频的能力。为了填补这一空白，我们介绍了音频对话：一个包含163.8k个样本的多轮对话数据集，用于处理一般音频和音乐。除了对话之外，音频对话还有问题-答案对，用于理解并比较多个输入音频。音频对话利用基于提示的方法和现有数据集中的字幕注释，使用大型语言模型（LLM）生成多轮对话。我们评估了现有的音频增强大型语言模型在我们提出的数据集上的表现，以展示音频对话的复杂性和适用性。我们生成数据集的代码将公开发布。详细的提示和生成的对话可在演示网站https://audiodialogues.github.io/上找到。
图表
解决问题

论文旨在解决现有的音频理解数据集主要集中在单轮对话上的问题，提出了一个包含163.8k个多轮音频对话样本的数据集Audio Dialogues，旨在通过交互式对话来理解音频。
关键思路

论文采用基于提示的方法和现有数据集的字幕注释来生成多轮对话，使用大型语言模型（LLM）来训练Audio Dialogues数据集，并评估现有的音频增强大型语言模型在该数据集上的表现。
其它亮点

该数据集包含多轮音频对话和问题-答案对，旨在更好地理解和比较多个输入音频。该论文提出的Audio Dialogues数据集可以帮助研究人员更好地理解音频，也可以用于音频对话生成和音频问答等任务。论文提供了生成数据集的代码，并在演示网站https://audiodialogues.github.io/上提供了详细的提示和生成的对话。
相关研究

最近的相关研究包括音频对话生成和音频问答等任务的研究，例如“Learning to Generate Dialogue Responses with Heterogeneous Supervision”和“Audio-Visual Scene-Aware Dialog”。

Audio Dialogues: Dialogues dataset for audio and music understanding

评论