Audio Spotforming Using Nonnegative Tensor Factorization with Attractor-Based Regularization

2024年07月12日
  • 简介
    这篇文章介绍了一种使用多个麦克风阵列的目标说话者提取技术,称为Spotforming。该方法对每个麦克风阵列应用波束成形(BF),并估计BF输出之间的共同成分作为目标源。本研究提出了一种基于非负张量分解(NTF)的新的共同成分提取方法,以获得更高的模型可解释性和更强的抗超参数的Spotforming。此外,引入了基于吸引子的正则化方法,以促进在NTF中自动选择最佳目标基。实验结果表明,所提出的方法在Spotforming性能上优于传统方法,并且显示出一些适合实际使用的特征。
  • 作者讲解
  • 图表
  • 解决问题
    本论文尝试解决使用多个麦克风阵列进行目标说话人提取时的问题,即如何更加准确地估计目标源。
  • 关键思路
    论文提出了一种基于非负张量分解的新的共同成分提取方法,用于提高模型的可解释性和对超参数的鲁棒性。此外,引入了吸引子约束正则化以促进在NTF中选择最佳目标基。
  • 其它亮点
    论文的实验结果表明,所提出的方法在目标说话人提取性能方面优于传统方法,并且具有适用于实际应用的一些特点。论文还使用了吸引子约束正则化技术,以自动选择最佳目标基,并提高了模型的鲁棒性。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. 'Deep Clustering based Speaker Extraction for Multi-Channel Audio Signal';2. 'Multi-Channel End-to-End Speech Recognition with a Single Transformer Network';3. 'A Survey of Multichannel Speaker Extraction Methods in Speech Processing'.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问