- 简介这篇文章介绍了一种使用多个麦克风阵列的目标说话者提取技术,称为Spotforming。该方法对每个麦克风阵列应用波束成形(BF),并估计BF输出之间的共同成分作为目标源。本研究提出了一种基于非负张量分解(NTF)的新的共同成分提取方法,以获得更高的模型可解释性和更强的抗超参数的Spotforming。此外,引入了基于吸引子的正则化方法,以促进在NTF中自动选择最佳目标基。实验结果表明,所提出的方法在Spotforming性能上优于传统方法,并且显示出一些适合实际使用的特征。
-
- 图表
- 解决问题本论文尝试解决使用多个麦克风阵列进行目标说话人提取时的问题,即如何更加准确地估计目标源。
- 关键思路论文提出了一种基于非负张量分解的新的共同成分提取方法,用于提高模型的可解释性和对超参数的鲁棒性。此外,引入了吸引子约束正则化以促进在NTF中选择最佳目标基。
- 其它亮点论文的实验结果表明,所提出的方法在目标说话人提取性能方面优于传统方法,并且具有适用于实际应用的一些特点。论文还使用了吸引子约束正则化技术,以自动选择最佳目标基,并提高了模型的鲁棒性。
- 在这个领域中,最近的相关研究包括:1. 'Deep Clustering based Speaker Extraction for Multi-Channel Audio Signal';2. 'Multi-Channel End-to-End Speech Recognition with a Single Transformer Network';3. 'A Survey of Multichannel Speaker Extraction Methods in Speech Processing'.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流