Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention

2024年04月29日
  • 简介
    音视频目标说话人提取(AV-TSE)旨在通过辅助视觉线索从音频混合中提取特定人的语音。以前的方法通常通过语音唇同步来搜索目标声音。然而,这种策略主要关注目标语音的存在,而忽略了噪声特征的变化。这可能会导致在具有挑战性的声学环境中从错误的声源提取噪声信号。为此,我们提出了一种新颖的反向选择性听觉注意机制,可以抑制干扰说话人和非语音信号,避免不正确的说话人提取。通过估计和利用这种机制中的不需要的噪声信号,我们设计了一个名为Subtraction-and-ExtrAction network(SEANet)的AV-TSE框架来抑制噪声信号。我们通过重新实现三种流行的AV-TSE方法作为基线,并涉及9个评估指标进行了大量实验。实验结果表明,我们提出的SEANet实现了最先进的结果,并在所有五个数据集上表现良好。我们将发布代码、模型和数据日志。
  • 作者讲解
  • 图表
  • 解决问题
    本篇论文旨在解决音频混合中的目标说话人提取问题,通过提出一种新的反向选择性听觉注意机制,来抑制干扰说话人和非语音信号,避免错误的说话人提取。
  • 关键思路
    论文提出了一种名为Subtraction-and-ExtrAction network (SEANet)的AV-TSE框架,通过估计和利用不需要的噪声信号,利用反向选择性听觉注意机制来抑制噪声信号,实现目标说话人提取。
  • 其它亮点
    论文重新实现了三种常见的AV-TSE方法作为基线,并使用九个评估指标进行了丰富的实验。实验结果表明,SEANet在所有五个数据集上均取得了最新的结果,并且表现良好。论文还将释放代码、模型和数据日志。
  • 相关研究
    最近的相关研究包括:'Audio-Visual Speaker Separation and Localization using Multi-Head Attention Based Recurrent Neural Networks'、'Audio-Visual Speech Enhancement using Multimodal Variational Autoencoder'、'Audio-Visual Speech Separation using Multimodal Deep Convolutional Neural Networks'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问