Robust Active Speaker Detection in Noisy Environments

2024年03月27日
  • 简介
    本文探讨了在嘈杂环境下的主动说话人检测(ASD)问题,并提出了一个鲁棒的主动说话人检测(rASD)问题。现有的ASD方法利用音频和视觉两种模态,但周围环境中的非语音声音会对性能产生负面影响。为了克服这一问题,我们提出了一个新的框架,利用音视频语音分离作为指导,学习无噪音的音频特征。然后在ASD模型中使用这些特征,两个任务在端到端框架中同时进行优化。我们的提议的框架缓解了残留噪声和音频质量降低的问题,这些问题在直接使用分离的语音进行ASD的朴素级联两阶段框架中可能会出现,并使两个任务同时优化。为了进一步增强音频特征的鲁棒性并处理固有的语音噪声,我们提出了一种动态加权损失方法来训练语音分离器。我们还收集了一个真实的噪声音频数据集以便于研究。实验证明,非语音音频噪声显着影响ASD模型,我们的提出的方法改善了嘈杂环境下的ASD性能。该框架是通用的,可以应用于不同的ASD方法以提高其鲁棒性。我们的代码、模型和数据将会发布。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决嘈杂环境下的主动说话人检测(ASD)问题,并提出了一个鲁棒的主动说话人检测(rASD)框架。
  • 关键思路
    该论文提出了一种新颖的框架,利用音频-视觉语音分离作为指导,学习无噪声的音频特征,并将其用于ASD模型中,两个任务同时优化。通过动态加权损失方法进一步增强音频特征的鲁棒性。
  • 其它亮点
    论文使用了自己收集的真实世界噪声音频数据集,证明了非语音音频噪声会显著影响ASD模型,提出的方法可以提高在嘈杂环境下的ASD性能。该框架具有普适性,可应用于不同的ASD方法以提高其鲁棒性。论文提供了代码、模型和数据集。
  • 相关研究
    最近的相关研究包括:'Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion'、'A Survey of Active Speaker Detection: Fundamentals and Applications'、'Multi-Channel Audio-Visual Speaker Localization and Tracking Using Particle Filters'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问