TSE-PI: Target Sound Extraction under Reverberant Environments with Pitch Information

简介

目标声音提取（TSE）根据提供的线索将目标声音从混合信号中分离出来。然而，现有模型在混响环境下的性能显著下降。受听觉场景分析（ASA）的启发，本文提出了一种名为TSE-PI的TSE模型，该模型提供了音高信息。通过特征逐层线性调制层和声音类别标签实现了条件音高提取。针对目标声音提取，采用了带有可学习的伽马通滤波器组的修改版Waveformer模型，该模型结合了音高信息。包含音高信息旨在提高模型的性能。在FSD50K数据集上的实验结果表明，当结合音高信息和伽马通滤波器组时，目标声音提取在混响环境下提高了2.4 dB。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高混合信号中目标声音提取的性能，尤其是在混响环境下的性能。
关键思路

通过加入音高信息和可学习的Gammatone滤波器组合改进了现有的目标声音提取模型。使用特征逐层线性调制层实现条件音高提取，使用改进的Waveformer模型提取目标声音。
其它亮点

实验结果表明，加入音高信息和Gammatone滤波器组合的TSE-PI模型在混响环境下可以提高2.4dB的目标声音提取性能。使用FSD50K数据集进行实验，并开源了代码。
相关研究

最近的相关研究包括：1）基于深度学习的音频分离算法；2）使用ASA方法的音频场景分析；3）使用深度学习的语音增强技术。

TSE-PI: Target Sound Extraction under Reverberant Environments with Pitch Information

提问交流

提问交流