- 简介Binaural Audio Telepresence(BAT)旨在将远端的声学场景编码为立体声信号,供近端用户使用。BAT包括广泛的应用,可以在两种极端模式之间变化,即沉浸式BAT(I-BAT)和增强BAT(E-BAT)。通过I-BAT,我们的目标是保留完整的环境,就像我们在远端一样,而通过E-BAT,我们的目标是显著提高远端对话的语音质量和可懂度。为此,本文提出了一种可调的BAT系统,以在所需的应用程序特定平衡中在这两种模式之间变化。麦克风信号被转换为具有预定环境因子的立体声信号。提出了一种新的空间相干表示(SCORE)作为模型训练的输入特征,以使网络对不同的阵列设置保持稳健。实验结果证明了所提出的BAT的卓越性能,即使在训练阶段没有包括阵列配置。
-
- 图表
- 解决问题本论文旨在解决Binaural Audio Telepresence (BAT)中的两种极端模式之间的平衡问题,即Immersive BAT (I-BAT)和Enhanced BAT (E-BAT)之间的平衡问题,以便根据应用程序需求进行调整。
- 关键思路本论文提出了一种可调节的BAT系统,可以根据应用程序需求在I-BAT和E-BAT之间进行平衡调整,同时提出了一种新的空间相干表示(SCORE)作为模型训练的输入特征,以使网络对不同的阵列设置具有鲁棒性。
- 其它亮点实验结果表明,即使在训练阶段未包含阵列配置的情况下,所提出的BAT的性能仍然优越。此外,该论文还使用了开源数据集,并提供了开源代码。
- 在这个领域中,还有一些相关的研究,例如“Binaural sound source separation based on deep neural networks”和“Binaural speech enhancement based on spatial filtering and deep neural networks”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流