- 简介空间声音推理是人类的一项基本技能,使我们能够根据声音来导航和解释我们的环境。在本文中,我们提出了BAT,它将双耳声学场景分析模型的空间声音感知能力与大型语言模型(LLM)的自然语言推理能力相结合,以复制这种天生的能力。为了解决现有野外空间声音数据集的缺乏,我们使用AudioSet和SoundSpaces 2.0合成了一个双耳音频数据集。接下来,我们开发了SpatialSoundQA,一个基于空间声音的问答数据集,提供了一系列QA任务,以训练BAT在空间声音感知和推理的各个方面。BAT的声学前端编码器是一种新颖的空间音频编码器,名为Spatial Audio Spectrogram Transformer或Spatial-AST,它本身在声音事件检测、空间定位和距离估计方面表现出强大的性能。通过将Spatial-AST与LLaMA-2 7B模型集成,BAT超越了标准的声音事件定位和检测(SELD)任务,使模型能够推理其环境中声音之间的关系。我们的实验证明了BAT在空间声音感知和推理方面的卓越性能,展示了LLMs在导航和解释复杂的空间音频环境方面的巨大潜力。
- 图表
- 解决问题论文旨在结合双耳声场分析模型的空间声音感知能力和大型语言模型的自然语言推理能力,解决在野外环境下缺乏数据集的问题,从而模拟人类的空间声音感知能力和推理能力。
- 关键思路论文提出了一种名为BAT的模型,将Spatial-AST和LLaMA-2 7B模型相结合,从而使模型能够推理出其环境中声音之间的关系,并在空间声音感知和推理方面取得了卓越的性能。
- 其它亮点论文合成了一个双耳音频数据集,并提出了一个名为SpatialSoundQA的基于空间声音的问答数据集,用于培训BAT在空间声音感知和推理的各个方面。Spatial-AST在声音事件检测、空间定位和距离估计方面表现出强大的性能。实验结果显示,BAT在空间声音感知和推理方面的性能优于其他模型。
- 最近在这个领域中,也有一些相关的研究,例如“SoundSpaces: A Scalable Platform for Analyzing Spatial Audio in 3D Environments”和“S3Net: Sound Source Separation Network for Spatial Audio Signals”。
沙发等你来抢
去评论
评论
沙发等你来抢