- 简介本文探讨如何使大型语言模型(LLMs)能够理解多通道音频中的空间信息,这是听觉LLMs目前缺乏的技能。通过利用LLMs的先进认知和推理能力,旨在通过音频增强对三维环境的理解。我们研究了三个空间音频任务:声源定位(SSL)、远场语音识别(FSR)和基于定位的语音提取(LSE),在每个任务中都取得了显著进展。对于SSL,我们的方法在Spatial LibriSpeech数据集上实现了$2.70^{\circ}$的MAE,大大超过了先前约为$6.60^{\circ}$的基准。此外,我们的模型可以利用空间线索提高FSR的准确性,并通过文本提示有选择地关注来自指定方向的声音,即使在重叠的语音中也能执行LSE。这些发现突显了将LLMs适应于掌握物理音频概念的潜力,为基于LLMs的3D环境代理铺平了道路。
- 图表
- 解决问题本文旨在通过利用大型语言模型(LLMs)的高级认知和推理能力,使其能够从多通道音频中理解空间信息,以增强通过音频理解三维环境的能力。
- 关键思路本文提出了一种基于LLMs的方法,利用空间线索来提高远场语音识别(FSR)的准确性,并通过文本提示有选择地关注来自指定方向的声音,即使在重叠语音中也能执行局部化信息的提取(LSE)。
- 其它亮点本文研究了三个空间音频任务:声源定位(SSL)、远场语音识别(FSR)和局部化信息的提取(LSE),在每个任务中取得了显著的进展。在SSL任务中,我们的方法在Spatial LibriSpeech数据集上实现了2.70度的MAE,大大超过了先前的约6.60度的基准。值得关注的是,本文的方法可以利用空间线索提高FSR的准确性,并通过文本提示有选择地关注来自指定方向的声音,即使在重叠语音中也能执行LSE。这些发现突显了将LLMs适应物理音频概念的潜力,为LLM基础的3D环境代理铺平了道路。
- 在最近的研究中,还有一些相关的工作,如“Learning Spatial Audio for Source Separation via Cross-modal Self-supervision”和“Audio-Visual Scene-Aware Dialog”。
沙发等你来抢
去评论
评论
沙发等你来抢