A tunable binaural audio telepresence system capable of balancing immersive and enhanced modes

简介

Binaural Audio Telepresence（BAT）旨在将远端的声学场景编码为立体声信号，供近端用户使用。BAT包括广泛的应用，可以在两种极端模式之间变化，即沉浸式BAT（I-BAT）和增强BAT（E-BAT）。通过I-BAT，我们的目标是保留完整的环境，就像我们在远端一样，而通过E-BAT，我们的目标是显著提高远端对话的语音质量和可懂度。为此，本文提出了一种可调的BAT系统，以在所需的应用程序特定平衡中在这两种模式之间变化。麦克风信号被转换为具有预定环境因子的立体声信号。提出了一种新的空间相干表示（SCORE）作为模型训练的输入特征，以使网络对不同的阵列设置保持稳健。实验结果证明了所提出的BAT的卓越性能，即使在训练阶段没有包括阵列配置。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决Binaural Audio Telepresence (BAT)中的两种极端模式之间的平衡问题，即Immersive BAT (I-BAT)和Enhanced BAT (E-BAT)之间的平衡问题，以便根据应用程序需求进行调整。
关键思路

本论文提出了一种可调节的BAT系统，可以根据应用程序需求在I-BAT和E-BAT之间进行平衡调整，同时提出了一种新的空间相干表示（SCORE）作为模型训练的输入特征，以使网络对不同的阵列设置具有鲁棒性。
其它亮点

实验结果表明，即使在训练阶段未包含阵列配置的情况下，所提出的BAT的性能仍然优越。此外，该论文还使用了开源数据集，并提供了开源代码。
相关研究

在这个领域中，还有一些相关的研究，例如“Binaural sound source separation based on deep neural networks”和“Binaural speech enhancement based on spatial filtering and deep neural networks”。

A tunable binaural audio telepresence system capable of balancing immersive and enhanced modes

提问交流

提问交流