- 简介本文旨在在轻量级设计和高性能之间实现平衡,这对于语音增强来说仍然是一个具有挑战性的任务。我们介绍了一种名为Multi-path Enhanced Taylor (MET) Transformer based U-net for Speech Enhancement (MUSE)的轻量级语音增强网络,该网络建立在Unet架构的基础上。我们的方法包括一种新颖的Multi-path Enhanced Taylor (MET) Transformer block,它集成了Deformable Embedding (DE)以实现对声纹的灵活接受域。MET Transformer独特地设计了通道和空间注意力(CSA)分支,促进了通道信息交换,并在Taylor-Transformer框架内解决了空间注意力缺陷。通过在VoiceBank+DEMAND数据集上进行的大量实验,我们证明MUSE在显著降低训练和部署成本的同时,实现了竞争性能,仅具有0.51M参数。
- 图表
- 解决问题论文旨在解决语音增强中轻量级设计和高性能之间的平衡问题。
- 关键思路论文提出了一种基于MET Transformer和Unet架构的语音增强轻量级网络MUSE。其中,MET Transformer块融合了Deformable Embedding和Channel and Spatial Attention(CSA)分支,以提高信息交流和解决空间注意力缺陷。
- 其它亮点论文在VoiceBank+DEMAND数据集上进行了广泛实验,证明了MUSE在显著降低训练和部署成本的同时,实现了竞争性能。此外,论文提出的MET Transformer和DE技术也具有一定的创新性。
- 最近在这个领域中,还有一些相关的研究,如:《A Fully Convolutional Neural Network for Speech Enhancement》、《Speech Enhancement with LSTM Recurrent Neural Networks and its Application to Noise-Robust ASR》等。
沙发等你来抢
去评论
评论
沙发等你来抢