- 简介最近基于卷积神经网络(CNNs)和Transformer的语音增强方法已被证明能够有效地捕捉频谱图上的时频(T-F)信息。然而,每个语音特征通道之间的相关性尚未被充分探索。理论上,不同卷积核获得的每个语音特征通道映射包含不同尺度的信息,表现出强烈的相关性。为了填补这一空白,我们提出了一种新颖的双分支架构,名为通道感知双分支Conformer(CADB-Conformer),分别有效地探索不同通道之间的长程时频相关性,以提取通道关系感知的时频信息。在DNS-Challenge 2020数据集上进行的消融研究表明,利用通道特征的重要性,同时展示了通道关系感知T-F信息对语音增强的重要性。大量实验证明,所提出的模型在计算成本方面具有优越的性能,优于最近的方法。
- 图表
- 解决问题该论文旨在解决语音增强中每个通道特征的相关性未被充分探索的问题,提出了一个新的双分支架构来提取通道关系感知的时频信息。
- 关键思路论文提出了一种名为CADB-Conformer的双分支架构,分别有效地探索了不同通道之间的长程时间和频率相关性,以提取通道关系感知的时频信息。
- 其它亮点论文在DNS-Challenge 2020数据集上进行了实验,并进行了消融研究,展示了利用通道特征的重要性,同时展示了通道关系感知时频信息对语音增强的重要性。实验结果表明,该模型在计算成本方面具有吸引力,并且优于最近的方法。
- 最近在这个领域中,还有一些相关的研究,如:Conv-TasNet、SE-Former、Dual-Path Transformer等。
沙发等你来抢
去评论
评论
沙发等你来抢