SpeakerBeam-SS: Real-time Target Speaker Extraction with Lightweight Conv-TasNet and State Space Modeling

2024年07月01日
  • 简介
    这篇论文介绍了一种基于状态空间建模(SSM)的新型架构,用于实现基于Conv-TasNet的实时目标说话人提取(TSE)。实现实时TSE是具有挑战性的,因为必须降低计算复杂度以提供实时操作。由于SSM的存在,Conv-TasNet中需要的扩张卷积层数量较少,可以有效地捕捉长期依赖关系,从而降低模型复杂度。此外,还通过扩大卷积(TasNet)前端编码器的窗口长度和移位来进一步降低计算成本;前端编码器的过度参数化可以弥补性能下降。该方法将实时因子降低了78%,同时与传统的因果Conv-TasNet-based TSE相匹配的性能。
  • 图表
  • 解决问题
    该论文旨在解决实时目标说话人提取的计算复杂度高的问题,提出了一种基于状态空间建模的新架构来降低模型复杂度。
  • 关键思路
    论文提出了一种基于状态空间建模的架构,可以有效地降低实时目标说话人提取的计算复杂度。
  • 其它亮点
    论文通过实验验证了提出方法的有效性,并且在计算复杂度和性能之间取得了平衡。论文使用了Conv-TasNet模型,并且在其基础上进行了改进。相关代码已经开源。
  • 相关研究
    最近的相关研究包括:1. End-to-End Speaker Extraction from Mixture Using Attention Mechanism; 2. Speaker Extraction with Deep Clustering and Unidirectional LSTM
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论