TSE-PI: Target Sound Extraction under Reverberant Environments with Pitch Information

2024年06月13日
  • 简介
    目标声音提取(TSE)根据提供的线索将目标声音从混合信号中分离出来。然而,现有模型在混响环境下的性能显著下降。受听觉场景分析(ASA)的启发,本文提出了一种名为TSE-PI的TSE模型,该模型提供了音高信息。通过特征逐层线性调制层和声音类别标签实现了条件音高提取。针对目标声音提取,采用了带有可学习的伽马通滤波器组的修改版Waveformer模型,该模型结合了音高信息。包含音高信息旨在提高模型的性能。在FSD50K数据集上的实验结果表明,当结合音高信息和伽马通滤波器组时,目标声音提取在混响环境下提高了2.4 dB。
  • 作者讲解
  • 图表
  • 解决问题
    提高混合信号中目标声音提取的性能,尤其是在混响环境下的性能。
  • 关键思路
    通过加入音高信息和可学习的Gammatone滤波器组合改进了现有的目标声音提取模型。使用特征逐层线性调制层实现条件音高提取,使用改进的Waveformer模型提取目标声音。
  • 其它亮点
    实验结果表明,加入音高信息和Gammatone滤波器组合的TSE-PI模型在混响环境下可以提高2.4dB的目标声音提取性能。使用FSD50K数据集进行实验,并开源了代码。
  • 相关研究
    最近的相关研究包括:1)基于深度学习的音频分离算法;2)使用ASA方法的音频场景分析;3)使用深度学习的语音增强技术。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问