MUSE: Flexible Voiceprint Receptive Fields and Multi-Path Fusion Enhanced Taylor Transformer for U-Net-based Speech Enhancement

2024年06月07日
  • 简介
    本文旨在实现轻量化设计和高性能的语音增强之间的平衡,这仍然是一个具有挑战性的任务。我们介绍了一种基于Unet架构的多路径增强泰勒(MET)变压器的语音增强网络MUSE。我们的方法包括一种新颖的多路径增强泰勒(MET)变压器块,它集成了可变形嵌入(DE),以实现对声纹的灵活接受场。MET变压器是独特设计的,可以融合通道和空间注意力(CSA)分支,促进通道信息交换,并在泰勒变压器框架内解决空间注意力缺陷。通过在VoiceBank+DEMAND数据集上进行的大量实验,我们证明了MUSE实现了竞争性能,同时显著降低了训练和部署成本,仅有0.51M个参数。
  • 图表
  • 解决问题
    本论文旨在解决语音增强中轻量级设计和高性能之间的平衡问题,提出了一种基于MET Transformer和U-net的语音增强网络MUSE。
  • 关键思路
    MET Transformer是本文的关键思路,它采用Deformable Embedding和Channel and Spatial Attention (CSA) branches,实现了灵活的感受野和通道信息交换,进一步提高了Taylor-Transformer框架的性能。
  • 其它亮点
    本文在VoiceBank+DEMAND数据集上进行了大量实验,证明了MUSE在性能上具有竞争力,并显著降低了训练和部署成本,仅有0.51M参数。本文的代码已经开源。
  • 相关研究
    最近的相关研究包括:'A Survey of Speech Enhancement: Algorithms and Applications','Speech Enhancement with Deep Recurrent Neural Networks'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论