- 简介本文旨在实现轻量化设计和高性能的语音增强之间的平衡,这仍然是一个具有挑战性的任务。我们介绍了一种基于Unet架构的多路径增强泰勒(MET)变压器的语音增强网络MUSE。我们的方法包括一种新颖的多路径增强泰勒(MET)变压器块,它集成了可变形嵌入(DE),以实现对声纹的灵活接受场。MET变压器是独特设计的,可以融合通道和空间注意力(CSA)分支,促进通道信息交换,并在泰勒变压器框架内解决空间注意力缺陷。通过在VoiceBank+DEMAND数据集上进行的大量实验,我们证明了MUSE实现了竞争性能,同时显著降低了训练和部署成本,仅有0.51M个参数。
- 图表
- 解决问题本论文旨在解决语音增强中轻量级设计和高性能之间的平衡问题,提出了一种基于MET Transformer和U-net的语音增强网络MUSE。
- 关键思路MET Transformer是本文的关键思路,它采用Deformable Embedding和Channel and Spatial Attention (CSA) branches,实现了灵活的感受野和通道信息交换,进一步提高了Taylor-Transformer框架的性能。
- 其它亮点本文在VoiceBank+DEMAND数据集上进行了大量实验,证明了MUSE在性能上具有竞争力,并显著降低了训练和部署成本,仅有0.51M参数。本文的代码已经开源。
- 最近的相关研究包括:'A Survey of Speech Enhancement: Algorithms and Applications','Speech Enhancement with Deep Recurrent Neural Networks'等。
沙发等你来抢
去评论
评论
沙发等你来抢