Audio Spotforming Using Nonnegative Tensor Factorization with Attractor-Based Regularization

简介

这篇文章介绍了一种使用多个麦克风阵列的目标说话者提取技术，称为Spotforming。该方法对每个麦克风阵列应用波束成形（BF），并估计BF输出之间的共同成分作为目标源。本研究提出了一种基于非负张量分解（NTF）的新的共同成分提取方法，以获得更高的模型可解释性和更强的抗超参数的Spotforming。此外，引入了基于吸引子的正则化方法，以促进在NTF中自动选择最佳目标基。实验结果表明，所提出的方法在Spotforming性能上优于传统方法，并且显示出一些适合实际使用的特征。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文尝试解决使用多个麦克风阵列进行目标说话人提取时的问题，即如何更加准确地估计目标源。
关键思路

论文提出了一种基于非负张量分解的新的共同成分提取方法，用于提高模型的可解释性和对超参数的鲁棒性。此外，引入了吸引子约束正则化以促进在NTF中选择最佳目标基。
其它亮点

论文的实验结果表明，所提出的方法在目标说话人提取性能方面优于传统方法，并且具有适用于实际应用的一些特点。论文还使用了吸引子约束正则化技术，以自动选择最佳目标基，并提高了模型的鲁棒性。
相关研究

在这个领域中，最近的相关研究包括：1. 'Deep Clustering based Speaker Extraction for Multi-Channel Audio Signal'；2. 'Multi-Channel End-to-End Speech Recognition with a Single Transformer Network'；3. 'A Survey of Multichannel Speaker Extraction Methods in Speech Processing'.

Audio Spotforming Using Nonnegative Tensor Factorization with Attractor-Based Regularization

提问交流

提问交流