- 简介本文介绍了一种基于Transformer的模型TF-Locoformer,它使用卷积层的前馈网络(FFNs)来捕捉局部信息,而不是线性层,让自注意力集中于捕捉全局模式。我们在自注意力之前和之后放置了两个这样的FFNs来增强局部建模能力。同时,我们还引入了一种新的TF域双通道模型的归一化方法。实验结果表明,该模型在分离和增强数据集上表现出了与RNN相比更好的性能,在多个基准测试中达到或超过了现有技术的水平。
- 图表
- 解决问题本文旨在解决语音分离中RNN模型无法并行化、可扩展性和多样性不足的问题,提出了一种基于Transformer的TF-Locoformer模型,旨在保持SoTA性能。
- 关键思路本文提出了一种基于Transformer的语音分离模型,使用卷积层的前馈网络来捕捉局部信息,让自注意力机制集中于捕捉全局模式,并引入了一种新的归一化方法。
- 其它亮点本文的实验结果表明,提出的模型在多个基准测试中均达到或超过了SoTA,具有很好的性能。此外,本文还提供了开源代码和使用的数据集,值得进一步研究。
- 最近的相关研究包括:《Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation》、《Speech Separation Transformer with Context-Aware Embedding》等。
沙发等你来抢
去评论
评论
沙发等你来抢