- 简介本文探讨了在嘈杂环境下的主动说话人检测(ASD)问题,并提出了一个鲁棒的主动说话人检测(rASD)问题。现有的ASD方法利用音频和视觉两种模态,但周围环境中的非语音声音会对性能产生负面影响。为了克服这一问题,我们提出了一个新的框架,利用音视频语音分离作为指导,学习无噪音的音频特征。然后在ASD模型中使用这些特征,两个任务在端到端框架中同时进行优化。我们的提议的框架缓解了残留噪声和音频质量降低的问题,这些问题在直接使用分离的语音进行ASD的朴素级联两阶段框架中可能会出现,并使两个任务同时优化。为了进一步增强音频特征的鲁棒性并处理固有的语音噪声,我们提出了一种动态加权损失方法来训练语音分离器。我们还收集了一个真实的噪声音频数据集以便于研究。实验证明,非语音音频噪声显着影响ASD模型,我们的提出的方法改善了嘈杂环境下的ASD性能。该框架是通用的,可以应用于不同的ASD方法以提高其鲁棒性。我们的代码、模型和数据将会发布。
-
- 图表
- 解决问题本论文旨在解决嘈杂环境下的主动说话人检测(ASD)问题,并提出了一个鲁棒的主动说话人检测(rASD)框架。
- 关键思路该论文提出了一种新颖的框架,利用音频-视觉语音分离作为指导,学习无噪声的音频特征,并将其用于ASD模型中,两个任务同时优化。通过动态加权损失方法进一步增强音频特征的鲁棒性。
- 其它亮点论文使用了自己收集的真实世界噪声音频数据集,证明了非语音音频噪声会显著影响ASD模型,提出的方法可以提高在嘈杂环境下的ASD性能。该框架具有普适性,可应用于不同的ASD方法以提高其鲁棒性。论文提供了代码、模型和数据集。
- 最近的相关研究包括:'Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion'、'A Survey of Active Speaker Detection: Fundamentals and Applications'、'Multi-Channel Audio-Visual Speaker Localization and Tracking Using Particle Filters'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流