xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement

2025年01月10日
  • 简介
    虽然基于注意力机制的架构(如Conformer)在语音增强方面表现出色,但它们在输入序列长度的可扩展性方面面临挑战。相比之下,最近提出的扩展长短时记忆(xLSTM)架构提供了线性可扩展性。然而,基于xLSTM的模型在语音增强领域尚未得到探索。本文介绍了xLSTM-SENet,这是首个基于xLSTM的单通道语音增强系统。通过对比分析发现,xLSTM,甚至传统的LSTM,在VoiceBank+Demand数据集上的语音增强任务中,可以在不同模型规模下匹配或超越最先进的Mamba和Conformer系统。通过消融研究,我们确定了指数门控和双向性等关键架构设计选择对其有效性有重要贡献。我们最佳的基于xLSTM的模型xLSTM-SENet2在Voicebank+DEMAND数据集上超越了最先进的Mamba和Conformer系统。
  • 图表
  • 解决问题
    该论文试图解决在单通道语音增强任务中,现有注意力机制模型(如Conformer)面临的可扩展性问题。具体来说,这些模型在处理长输入序列时遇到挑战,而xLSTM架构则提供了一种线性可扩展的替代方案。这是一个重要的问题,因为提高模型对长音频序列的处理能力可以显著提升实际应用中的性能。
  • 关键思路
    关键思路是引入xLSTM-SENet,这是第一个基于xLSTM的单通道语音增强系统。相比现有的Mamba和Conformer模型,xLSTM不仅提供了更好的可扩展性,而且在不同模型大小下都能匹配或超越这些先进模型的性能。此外,通过实验验证了指数门控和双向性等设计选择的重要性,进一步增强了模型的效果。
  • 其它亮点
    论文的主要亮点包括:1) 首次将xLSTM应用于语音增强领域,并证明其有效性;2) 使用VoiceBank+Demand数据集进行了全面的实验比较,展示了xLSTM-SENet的优越性;3) 通过消融研究确定了影响模型性能的关键因素;4) 最佳模型xLSTM-SENet2在多个指标上超过了当前最先进的系统。此外,该研究还为未来的研究提供了方向,例如探索更多适用于xLSTM的优化技术和应用场景。
  • 相关研究
    最近在这个领域的相关研究还包括:1) Mamba架构在语音增强中的应用;2) Conformer模型在多种语音处理任务中的改进;3) LSTM及其变体在语音识别和其他音频处理任务中的持续优化。一些相关的论文标题有《Mamba: A Novel Architecture for Speech Enhancement》、《Advancements in Conformer Models for Speech Processing》以及《Optimizing LSTM for Real-Time Audio Applications》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论