Robust Active Speaker Detection in Noisy Environments

向作者提问

NEW

简介

本文探讨了在嘈杂环境下的主动说话人检测（ASD）问题，并提出了一个鲁棒的主动说话人检测（rASD）问题。现有的ASD方法利用音频和视觉两种模态，但周围环境中的非语音声音会对性能产生负面影响。为了克服这一问题，我们提出了一个新的框架，利用音视频语音分离作为指导，学习无噪音的音频特征。然后在ASD模型中使用这些特征，两个任务在端到端框架中同时进行优化。我们的提议的框架缓解了残留噪声和音频质量降低的问题，这些问题在直接使用分离的语音进行ASD的朴素级联两阶段框架中可能会出现，并使两个任务同时优化。为了进一步增强音频特征的鲁棒性并处理固有的语音噪声，我们提出了一种动态加权损失方法来训练语音分离器。我们还收集了一个真实的噪声音频数据集以便于研究。实验证明，非语音音频噪声显着影响ASD模型，我们的提出的方法改善了嘈杂环境下的ASD性能。该框架是通用的，可以应用于不同的ASD方法以提高其鲁棒性。我们的代码、模型和数据将会发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决嘈杂环境下的主动说话人检测（ASD）问题，并提出了一个鲁棒的主动说话人检测（rASD）框架。
关键思路

该论文提出了一种新颖的框架，利用音频-视觉语音分离作为指导，学习无噪声的音频特征，并将其用于ASD模型中，两个任务同时优化。通过动态加权损失方法进一步增强音频特征的鲁棒性。
其它亮点

论文使用了自己收集的真实世界噪声音频数据集，证明了非语音音频噪声会显著影响ASD模型，提出的方法可以提高在嘈杂环境下的ASD性能。该框架具有普适性，可应用于不同的ASD方法以提高其鲁棒性。论文提供了代码、模型和数据集。
相关研究

最近的相关研究包括：'Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion'、'A Survey of Active Speaker Detection: Fundamentals and Applications'、'Multi-Channel Audio-Visual Speaker Localization and Tracking Using Particle Filters'等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问