- 简介这篇论文介绍了一种基于状态空间建模(SSM)的新型架构,用于实现基于Conv-TasNet的实时目标说话人提取(TSE)。实现实时TSE是具有挑战性的,因为必须降低计算复杂度以提供实时操作。由于SSM的存在,Conv-TasNet中需要的扩张卷积层数量较少,可以有效地捕捉长期依赖关系,从而降低模型复杂度。此外,还通过扩大卷积(TasNet)前端编码器的窗口长度和移位来进一步降低计算成本;前端编码器的过度参数化可以弥补性能下降。该方法将实时因子降低了78%,同时与传统的因果Conv-TasNet-based TSE相匹配的性能。
- 图表
- 解决问题该论文旨在解决实时目标说话人提取的计算复杂度高的问题,提出了一种基于状态空间建模的新架构来降低模型复杂度。
- 关键思路论文提出了一种基于状态空间建模的架构,可以有效地降低实时目标说话人提取的计算复杂度。
- 其它亮点论文通过实验验证了提出方法的有效性,并且在计算复杂度和性能之间取得了平衡。论文使用了Conv-TasNet模型,并且在其基础上进行了改进。相关代码已经开源。
- 最近的相关研究包括:1. End-to-End Speaker Extraction from Mixture Using Attention Mechanism; 2. Speaker Extraction with Deep Clustering and Unidirectional LSTM
沙发等你来抢
去评论
评论
沙发等你来抢